为了后续在生产环境中搭建hadoop集群,现在虚拟机中搭建一个测试用的环境。
先从单台namenode环境搭建入手,后续将搭建Hadoop高可用集群
安装环境
Centos版本:CentOS Linux release 7.3.1611 (Core)
jdk:java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
hadoop版本:hadoop2.7.3
测试环境在Virtual box中进行
虚拟机配置
Master1:192.168.31.111
Master2:192.168.31.138
Slave1:192.168.31.137
Slave2:192.168.31.162
slave3:192.168.31.102
为了安置配置的方便,关防所有机子的防火墙
配置主机名
每台机子配上主机名(master1,master2,slave1,slave2,slave3)
配置hosts文件
需要在每台机器上增加其它机器的ip列表
建立hadoop运行帐号
后续的行为都在hadoop用户下操作
配置ssh免密钥
|
|
需保证两台master之间能够互相登陆,各个master能够登陆各个slave
然后在master上测试能否免密码登录各个slave
tips:
DN之间是否需要配置ssh免密钥:
datanode之间是要通信的,但不用ssh登录,只是通过socket进行通信。
Hadoop配置部署
以下先在master1机子上配置后,同步到slave机子,master2的机子后续配置双活才使用,现在不用管
1、下载并解压hadoop
|
|
2、配置JAVA_HOME
采用系统自带的OpenJDK
3、配置 core-site.xml
|
|
4、 配置文件系统 hdfs-site.xml
|
|
5、配置yarn-site.xml
|
|
6、配置mapred-site.xml
|
|
配置
6、修改slaves文件
加入slave的列表
7、复制到从节点
将配置好的文件复制到slave中
启动 Hadoop 集群
1、配置 Hadoop 启动的系统环境变量(可不做)
|
|
2、创建数据目录
在每台机子上创建
3、格式化文件系统
在master1机器上进行格式化,其它slave机子不需要
没有出现 Exception/Error,则表示格式化成功,不要重复的格式化,会出现问题
4、启动
|
|
验证
1、web页面查看
2、运行 PI 实例检查集群是否成功
|
|
出现以下问题(主机名没有配置对)
检查方法:
1、检查网络,防火墙是否有问题,需关闭所有的防火墙
2、查看配置ssh免密钥登录是否有问题
运行出错,子节点暂没互通,但是没有影响最终结果
安装过程中出现的问题
1、宿主机卡死
出现场景:
1、对虚拟机进行格式化的时候,window机器挂了
2、跑mapreduce时,window机器挂了
原因:
虚拟机的设置不对,CPU,磁盘设置过大
解决方法
设置成内存1G,硬盘固定8G
2、只启动了一个实例
原因:
一般情况下,出现这个问题的原因是namenode和datanode的clusterID不一致。namenode每次格式化时,会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。期间尝试过重新格式化磁盘,但中途终止,导致出现此问题
解决方法(两种)
1、修改datanode里VERSION文件的clusterID与namenode的clusterID一致,重新执行start-dfs.sh
2、删除生成的节点hdfs的信息,然后重新格式化