Hadoop集群检查

安装完hadoop集群后,需要对整个集群进行检测来评价安装是否成功,主要从以下几个方面来检测。

1、所有的进程是否都已经启动

使用jps命令查看相关的进程是否启动,主要的检测的是namenode,和resourcemanager上的进程是否启动

2、webui页面查看

Hadoop提供了集群信息可视化web页面,可以在namenode的50070端口查看到集群信息,需对两个namenode,一个active 模式,一个standby模式

3、查看resource manage的状态

可以在部署了resorcemanager 的节点上的8088端口查看resorcemanager的信息。
也可以用命令行查看

1
2
3
4
yarn rmadmin -getServiceState rm1
standy
yarn rmadmin -getServiceState rm2
Active


kill掉ResourceManager(active),再次查看状态

4、运行测试用例

上面几个步骤是检测hadoop集群是否正常的启动,而运行测试用例是查看hadoop集群能否正常工作。hadoop自带了一些例子可以用来测试集群,在测试的时候,需观察集群是否有错误产生。

PI例子检查

使用hadoop自带pi例子,这是一个资源密集型计算任务。

1
~/hadoop/bin/hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 10 100


wordcount例子检查

wordcount最能够体现出MapReduce思想
创建文件测试和使用hadoop的日志文件进行测试

1
2
3
4
5
6
hadoop fs -mkdir input
创建一些文件,随便输入一些字符串
hadoop fs -put ~/wordcount/file*.txt input
hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input output
hadoop fs -ls output
hadoop fs -cat output/part-r-00000


Hadoop集群(第6期)_WordCount运行详解 - 虾皮 - 博客园

关闭一个节点

在运行一个任务的时候,关闭一个datanode节点,看任务的最终结果是否正确。这是检测集群的容错性。
在跑任务的情况下:会出现该机器无法连接

大概10分钟后页面上显示dead

说明集群能够正常检测实效的节点,查看最终的节点发现运算结果与没有关闭节点时的结果一样,则说明集群的容错性没有问题
hadoop入门之设置datanode的心跳时间的方法 - 茄子_2008 - 博客园

5、namenode高可用测试

在active所在的namenode节点,杀掉相应的namenode进程

master1挂掉之后,master2变成active

然后对kill掉的NN进行重启之后,其变成了standby模式

6、日志分析

如果以上几步产生问题,则应该继续去分析日志信息,找到错误的原因。
日志文件放在logs下

通过以上几步的检测,大致能够确认整个集群能够正常的运行。