centos搭建hadoop，hadoop单机模式

2025-1-10

大家好，今天小编来为大家解答centos搭建hadoop这个问题，hadoop单机模式很多人还不知道，现在让我们一起来看看吧！

如何构建最优化的Hadoop集群

操作系统

我们选择Linux作为操作系统。Linux有许多不同的发行版，包括Ubuntu、RedHat和CentOS等，无论选择哪一个都可以。基于支持和许可费用的考虑，我们最终选择了CentOS 5.7。最好是定制一个CentOS的映像，把那些需要的软件都预装进去，这样所有的机器可以包含相同的软件和工具，这是一个很好的做法。

根据Cloudera的建议，OS层应该采用以下设置：

文件系统

Ext3文件系统

取消atime

不要使用逻辑卷管理

利用alternatives来管理链接

使用配置管理系统(Yum、Permission、sudoers等)

减少内核交换

撤销一般用户访问这些云计算机的权限

不要使用虚拟化

至少需要以下Linux命令：

/etc/alternatives

ln、chmod、chown、chgrp、mount、umount、kill、rm、yum、mkdir

硬件要求

由于Hadoop集群中只有两种节点(Namenode/Jobtracker和Datanode/Tasktracker)，因此集群内的硬件配置不要超过两种或三种。

图2- Hadoop集群服务器角色

硬件建议：

Namenode/Jobtracker：1Gb/s以太网口x2、16GB内存、4个CPU、100GB磁盘

Datanode：1Gb/s以太网口x2、8GB内存、4个CPU、多个磁盘，总容量500GB以上

实际的硬件配置可以与我们建议的配置不同，这取决于你们需要存储和处理的数据量。但我们强烈建议不要在集群中混用不同的硬件配置，以免那些较弱的机器成为系统的瓶颈。

Hadoop的机架感知

Hadoop有一个“机架感知”特性。管理员可以手工定义每个slave数据节点的机架号。为什么要做这么麻烦的事情?有两个原因：防止数据丢失和提高网络性能。

图3- Hadoop集群的机架感知

为了防止数据丢失，Hadoop会将每个数据块复制到多个机器上。想象一下，如果某个数据块的所有拷贝都在同一个机架的不同机器上，而这个机架刚好发生故障了(交换机坏了，或者电源掉了)，这得有多悲剧?为了防止出现这种情况，必须要有一个人来记住所有数据节点在网络中的位置，并且用这些知识来确定——把数据的所有拷贝们放在哪些节点上才是最明智的。这个“人”就是Name Node。

另外还有一个假设，即相比不同机架间的机器，同一个机架的机器之间有着更大的带宽和更小的延时。这是因为，机架交换机的上行带宽一般都小于下行带宽。而且，机架内的延时一般也小于跨机架的延时(但也不绝对)。

机架感知的缺点则是，我们需要手工为每个数据节点设置机架号，还要不断地更新这些信息，保证它们是正确的。要是机架交换机们能够自动向Namenode提供本机架的数据节点列表，那就太棒了。

Hadoop软件的安装和配置

Hadoop集群有多种构建方式：

手工下载tar文件并复制到集群中

利用Yum仓库

利用Puppet等自动化部署工具

我们不建议采用手工方式，那只适合很小的集群(4节点以下)，而且会带来很多维护和排障上的问题，因为所有的变更都需要用scp或ssh的方式手工应用到所有的节点上去。

从以下方面来看，利用Puppet等部署工具是最佳的选择：

安装

配置

维护

扩展性

监控

排障

Puppet是Unix/Linux下的一个自动化管理引擎，它能基于一个集中式的配置执行增加用户、安装软件包、更新服务器配置等管理任务。我们将主要讲解如何利用Yum和Puppet来安装Hadoop。

利用Yum/Puppet搭建Hadoop集群

要利用Puppet搭建Hadoop集群，首先要符合以下前置条件：

包含所有必需Hadoop软件的中央仓库

用于Hadoop部署的Puppet装载单(manifest)

用于Hadoop配置管理的Puppet装载单

用于集群维护的框架(主要是sh或ksh脚本)，以支持集群的start/stop/restart

利用puppet构建整个服务器(包括操作系统和其它软件)

注：如果要用Yum来安装Hadoop集群，则所有服务器应该预先构建完成，包括操作系统和其它软件都应安装完毕，yum仓库也应在所有节点上设置完毕。

构建Datanode/Tasktracker

如果用Yum安装Datanode/Tasktracker，需在所有数据节点上执行以下命令：

yum install hadoop-0.20-datanode–y

yum install hadoop-0.20-tasktracker–y

换成Puppet的话，则是：

class setup_datanode{

if($is_datanode== true){

make_dfs_data_dir{$hadoop_disks:}

make_mapred_local_dir{$hadoop_disks:}

fix_hadoop_parent_dir_perm{$hadoop_disks:}

}

# fix hadoop parent dir permissions

define fix_hadoop_parent_dir_perm(){

…

}

# make dfs data dir

define make_dfs_data_dir(){

…

}

# make mapred local and system dir

define make_mapred_local_dir(){

…

}

}# setup_datanode

构建Namenode(及辅助Namenode)

如果用Yum安装Namenode，需在所有数据节点上执行以下命令：

yum install hadoop-0.20-namenode–y

yum install hadoop-0.20-secondarynamenode–y

换成Puppet的话，则是：

class setup_namenode{

if($is_namenode== true or$is_standby_namenode== true){

...

}

exec{"namenode-dfs-perm":

...

}

exec{"make${nfs_namenode_dir}/dfs/name":

...

}

exec{"chgrp${nfs_namenode_dir}/dfs/name":

...

}

if($standby_namenode_host!=""){

...

}

exec{"own$nfs_standby_namenode_dir":

...

}

#/standby_namenode_hadoop

if($standby_namenode_host!=""){

...

}

exec{"own$standby_namenode_hadoop_dir":

...

}

class setup_secondary_namenode{

if($is_secondarynamenode== true){

...

}

....

}

exec{"namenode-dfs-perm":

...

}

构建JobTracker

如果用Yum安装Jobtracker，需在所有数据节点上执行以下命令：

yum install hadoop-0.20-jobtracker–y

换成Puppet的话，则是使用与构建Namenode相同的装载单，唯一的区别在于，在Jobtracker机器上，会启动Jobtracker——即将该机器上的is_jobtracker设置为true。

centos 6.5怎么搭建hadoop2.7.3

总体思路，准备主从服务器，配置主服务器可以无密码SSH登录从服务器，解压安装JDK，解压安装Hadoop，配置hdfs、mapreduce等主从关系。

1、环境，3台CentOS6.5，64位，Hadoop2.7.3需要64位Linux，操作系统十几分钟就可以安装完成，

Master 192.168.0.182

Slave1 192.168.0.183

Slave2 192.168.0.184

2、SSH免密码登录，因为Hadoop需要通过SSH登录到各个节点进行操作，我用的是root用户，每台服务器都生成公钥，再合并到authorized_keys

(1)CentOS默认没有启动ssh无密登录，去掉/etc/ssh/sshd_config其中2行的注释，每台服务器都要设置，

#RSAAuthentication yes

#PubkeyAuthentication yes

(2)输入命令，ssh-keygen-t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh文件夹，每台服务器都要设置，

(3)合并公钥到authorized_keys文件，在Master服务器，进入/root/.ssh目录，通过SSH命令合并，

cat id_rsa.pub>> authorized_keys

ssh root@192.168.0.183 cat~/.ssh/id_rsa.pub>> authorized_keys

ssh root@192.168.0.184 cat~/.ssh/id_rsa.pub>> authorized_keys

(4)把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录

(5)完成，ssh root@192.168.0.183、ssh root@192.168.0.184就不需要输入密码了

3、安装JDK，Hadoop2.7需要JDK7，由于我的CentOS是最小化安装，所以没有OpenJDK，直接解压下载的JDK并配置变量即可

(1)下载“jdk-7u79-linux-x64.gz”，放到/home/java目录下

(2)解压，输入命令，tar-zxvf jdk-7u79-linux-x64.gz

(3)编辑/etc/profile

export JAVA_HOME=/home/java/jdk1.7.0_79

export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

(4)使配置生效，输入命令，source/etc/profile

(5)输入命令，java-version，完成

4、安装Hadoop2.7，只在Master服务器解压，再复制到Slave服务器

(1)下载“hadoop-2.7.0.tar.gz”，放到/home/hadoop目录下

(2)解压，输入命令，tar-xzvf hadoop-2.7.0.tar.gz

(3)在/home/hadoop目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name

5、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

6、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

7、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

8、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

</configuration>

9、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME，不设置的话，启动不了，

export JAVA_HOME=/home/java/jdk1.7.0_79

10、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves，删除默认的localhost，增加2个从节点，

192.168.0.183

192.168.0.184

11、将配置好的Hadoop复制到各个节点对应位置上，通过scp传送，

scp-r/home/hadoop 192.168.0.183:/home/

scp-r/home/hadoop 192.168.0.184:/home/

12、在Master服务器启动hadoop，从节点会自动启动，进入/home/hadoop/hadoop-2.7.0目录

(1)初始化，输入命令，bin/hdfs namenode-format

注意：执行这步的时候可能会报一个错误：

java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error

at java.net.InetAddress.getLocalHost(InetAddress.java:1505)

at org.apache.hadoop.net.DNS.resolveLocalHostname(DNS.java:264)

at org.apache.hadoop.net.DNS.<clinit>(DNS.java:57)

at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)

at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)

at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)

at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)

at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)

at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)

Caused by: java.net.UnknownHostException: tiancunPC: unknown error

at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)

at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)

at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)

at java.net.InetAddress.getLocalHost(InetAddress.java:1500)

... 8 more

16/11/11 19:15:23 WARN net.DNS: Unable to determine address of the host-falling back to"localhost" address

java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error

at java.net.InetAddress.getLocalHost(InetAddress.java:1505)

at org.apache.hadoop.net.DNS.resolveLocalHostIPAddress(DNS.java:287)

at org.apache.hadoop.net.DNS.<clinit>(DNS.java:58)