hadoop centos 搭建(docker安装hadoop)
大家好,今天来为大家分享hadoop centos 搭建的一些知识点,和docker安装hadoop的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!
centos 6.5怎么搭建hadoop2.7.3
总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。
1、环境,3台CentOS6.5,64位,Hadoop2.7.3需要64位Linux,操作系统十几分钟就可以安装完成,
Master 192.168.0.182
Slave1 192.168.0.183
Slave2 192.168.0.184
2、SSH免密码登录,因为Hadoop需要通过SSH登录到各个节点进行操作,我用的是root用户,每台服务器都生成公钥,再合并到authorized_keys
(1)CentOS默认没有启动ssh无密登录,去掉/etc/ssh/sshd_config其中2行的注释,每台服务器都要设置,
#RSAAuthentication yes
#PubkeyAuthentication yes
(2)输入命令,ssh-keygen-t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置,
(3)合并公钥到authorized_keys文件,在Master服务器,进入/root/.ssh目录,通过SSH命令合并,
cat id_rsa.pub>> authorized_keys
ssh root@192.168.0.183 cat~/.ssh/id_rsa.pub>> authorized_keys
ssh root@192.168.0.184 cat~/.ssh/id_rsa.pub>> authorized_keys
(4)把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录
(5)完成,ssh root@192.168.0.183、ssh root@192.168.0.184就不需要输入密码了
3、安装JDK,Hadoop2.7需要JDK7,由于我的CentOS是最小化安装,所以没有OpenJDK,直接解压下载的JDK并配置变量即可
(1)下载“jdk-7u79-linux-x64.gz”,放到/home/java目录下
(2)解压,输入命令,tar-zxvf jdk-7u79-linux-x64.gz
(3)编辑/etc/profile
export JAVA_HOME=/home/java/jdk1.7.0_79
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
(4)使配置生效,输入命令,source/etc/profile
(5)输入命令,java-version,完成
4、安装Hadoop2.7,只在Master服务器解压,再复制到Slave服务器
(1)下载“hadoop-2.7.0.tar.gz”,放到/home/hadoop目录下
(2)解压,输入命令,tar-xzvf hadoop-2.7.0.tar.gz
(3)在/home/hadoop目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name
5、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.182:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
</configuration>
6、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.0.182:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
7、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>192.168.0.182:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.0.182:19888</value>
</property>
</configuration>
8、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.0.182:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.0.182:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.0.182:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.0.182:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.0.182:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>
9、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME,不设置的话,启动不了,
export JAVA_HOME=/home/java/jdk1.7.0_79
10、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves,删除默认的localhost,增加2个从节点,
192.168.0.183
192.168.0.184
11、将配置好的Hadoop复制到各个节点对应位置上,通过scp传送,
scp-r/home/hadoop 192.168.0.183:/home/
scp-r/home/hadoop 192.168.0.184:/home/
12、在Master服务器启动hadoop,从节点会自动启动,进入/home/hadoop/hadoop-2.7.0目录
(1)初始化,输入命令,bin/hdfs namenode-format
注意:执行这步的时候可能会报一个错误:
java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error
at java.net.InetAddress.getLocalHost(InetAddress.java:1505)
at org.apache.hadoop.net.DNS.resolveLocalHostname(DNS.java:264)
at org.apache.hadoop.net.DNS.<clinit>(DNS.java:57)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)
at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)
Caused by: java.net.UnknownHostException: tiancunPC: unknown error
at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)
at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)
at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)
at java.net.InetAddress.getLocalHost(InetAddress.java:1500)
... 8 more
16/11/11 19:15:23 WARN net.DNS: Unable to determine address of the host-falling back to"localhost" address
java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error
at java.net.InetAddress.getLocalHost(InetAddress.java:1505)
at org.apache.hadoop.net.DNS.resolveLocalHostIPAddress(DNS.java:287)
at org.apache.hadoop.net.DNS.<clinit>(DNS.java:58)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)
at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)
Caused by: java.net.UnknownHostException: tiancunPC: unknown error
at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)
at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)
at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)
at java.net.InetAddress.getLocalHost(InetAddress.java:1500)
... 8 more
linux中使用hostname查看为:
[root@tiancunPC hadoop-2.7.3]# hostname
tiancunPC
查看/etc/hosts为:
[root@tiancunPC hadoop-2.7.3]# cat/etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
难怪会映射不到,修改/etc/hosts
[root@tiancunPC hadoop-2.7.3]# cat/etc/hosts
127.0.0.1 tiancunPC localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
对应修改另外两个机器的主机名,在执行那个命令就可以了
(2)全部启动sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
执行sbin/start-all.sh可能会有错误提示:
maps to localhost(IP), but this does not map back to the address
解决办法:
修改/etc/ssh/ssh_config
vim/etc/ssh/ssh_config
GSSAPIAuthentication no
这个时候可能还会出现这个错误提示:
hadoop出现namenode running as process 18472. Stop it first.,hadoopnamenode
解决办法:重新启动一下hadoop
(3)停止的话,输入命令,sbin/stop-all.sh
(4)输入命令,jps,可以看到相关信息
国内hadoop发行版有哪些公司在做,哪个比较好
国内hadoop发行版有哪些公司在做,哪个比较好?
星环资讯科技(上海)有限公司的TRANSWARP,用着不错,SQL相容性很好。
公司创始人孙元浩是2013年中国Hadoop Summit主席。曾是Intel资料中心软体部亚太区CTO,专注大资料基础技术的研发,并且在国内建立多个大资料应用案例,是Hadoop早期应用的开拓者。
国内有哪些比较好的 Linux发行版
最好的回归发行版:openSUSE
最可定制的发行版: Arch Linux
最好看的发行版:elementary OS
最好的教育作业系统:ezgo Linux
最佳新人:Solus
最好的教育作业系统:ezgo Linux
最好的云作业系统:Chrome OS
最好的笔记本作业系统:Ubuntu MATE
推荐一本书《linux就该这么学》,内容很富,值得一看。
国内linux发行版的话,主推deepin,成熟,有想法。自主软体相对靠谱,符合国人操作习惯。另外就是ubuntu麒麟了,不过个人感觉不如直接安原版ubuntu,虽然其他发行版挺多的,不过好多并不好用,而且一部分就是在骗经费。红旗死过一次,听说复活了,不过也实在没啥亮点
Linux装哪个发行版比较好?
如果你能玩透这两个系统,那基本上离玩家不远了。
玩这个就很Geek了,因为它是教你从0开始编译Linux核心,然后搭建出一个Linux发行版,挺有趣的,在这个过程中会学习到很多关于Linux更底层的东西,对于整个Linux有更深的了解
以上回答你满意么?
国内酒店设计公司都有哪些?哪个比较好?
HHD深圳假日东方设计做的出色,他们设计的酒店,会融入多种设计风格,让酒店的品味整体得到提升,可以更好地吸引住客!
哪个 Linux发行版比较好看
Elementary OS中文版-号称最漂亮的 Linux系统!基于 Ubuntu的精美发行版。
一般用来做桌面系统的linux发行版都是基于Ubuntu的。
建议你可以先选一个入手,以后可以慢慢换。 Gnome,KDE都可以尝试一下。
Linux哪个发行版比较好用?
推荐以下系统:
Fedora 7
Ubuntu 7.04
FedoraCore 6
之所以推荐上面的系统,是因为这些Linux发行版使用者数量多,而且都有很大的交流社群,网上也有很多资料可以查阅。
国内外流行的Linux发行版有哪些
1. RedHat
国内乃至全世界的Linux使用者最熟悉的发行版相比就是RedHat,1994年,Marc Ewing(美国人,卡内基梅隆大学毕业)释出了Red Hat Linux 1.0。目前RedHat分为两个系列:一个是Red Hat Enterprise Linux(简称RHEL),redhat提供收费技术支援和更新,适合伺服器使用者;另一个是Fedora(第七版以前为Fedora Core),它的定位是桌面使用者,Fedora是红帽公司新技术的实验场,许多新的技术都会在Fedora Core中检验,如果稳定的话红帽公司则会考虑加入Red Hat Enterprise Linux中。Fedora预计每年发行2~3次的发行版本。是RHEL的一个测试版本或预发版本,另外一个值得注意的是CentOS(Community Enterprise Operating System),是RHEL原始码再编译的产物的免费版,它继承了Red Hat Linux的稳定性,而且又提供免费更新。2014年1月8日CentOS宣布加入红帽公司,承诺继续免费。目前最新版本分别是RHEL6.5、CentOS6.5、Fedara20。
2. SUSE
SUSE是欧洲大陆最流行的LINUX,也是现存的最古老的商业发行版之一,起源于德国,于2003年末被Novell收购。主要版本有:SUSE Linux,针对个人使用者,可以免费下载;另一个是SUSE Linux Enterprise Server(SLES)是基于企业伺服器端的。如果需要使用资料库高阶服务和电子邮件网路应用可以选SUSE。
3. Debian
Debian最早由Ian Murdock于1993年释出,是迄今为止组遵循GNU规范的linux系统。系统中绝大部分基础工具来自于GNU工程,因此“Debian”常指Debian GNU/Linux。最新版本是2013年5月4日释出的Debian7.0 wheezy。
4. Ubuntu
现在最流行的linux桌面系统是ubuntu。Ubuntu(乌班图)是基于Debian GNU/Linux,支援x86、amd64(即x64)和ppc架构,由全球化的专业开发团队(Canonical Ltd)打造的开源GNU/Linux作业系统。为桌面虚拟化提供支援平台。Ubuntu对GNU/Linux的普及特别是桌面普及作出了巨大贡献,由此使更多人共享开源的成果与精彩。uabntu主要版本有基于Gnome的ubuntu,基于KDE的Kubuntu,基于Xfce的Xubuntu你就根据自己的爱好在ubuntu、kubuntu以及xubuntu中选一款,三者的区别仅仅是桌面程式的不一样。ubuntu最新版本是13.10,于2013年10月17号释出(版本号基于释出日期)。
5. Gentoo
Gentoo是Linux世界最年轻的发行版本,正因为年轻,所以能吸取在她之前的所有发行版本的优点。Gentoo最初由Daniel Robbins(FreeBSD的开发者之一)建立,首个稳定版本释出于2002年。由于开发者对FreeBSD的熟识,所以Gentoo拥有媲美FreeBSD的广受美誉的ports系统——Portage包管理系统。不同于APT和YUM等二进位制档案分发的包管理系统,Portage是基于原始码分发的,必须编译后才能执行,对于大型软体而言比较慢,不过正因为所有软体都是在本地机器编译的,在经过各种定制的编译引数优化后,能将机器的硬体效能发挥到极致。Gentoo是所有Linux发行版本里安装最复杂的,但是又是安装完成后最便于管理的版本,也是在相同硬体环境下执行最快的版本。
国内极客联盟有哪些?哪个比较好?
知乐极客目前是最好的,他们那都是数码达人玩的高科技玩意。
哪个Linux的发行版比较好用
Linux系统开源的,所以有好多公司的,主要看你用作什么?有桌面版的方便从Windows过度:Ubuntu、SUSE等的,伺服器的话目前大部分都是Redhat的centos,目前都到centos 7.X版本了。
2017年度最热门 Linux桌面发行版由 Ubuntu以 18.17%的得票率夺冠,排在第二名的是 Linux Mint,得票率为 18.02%,Slackware以 16.79%排名第三,高于第四名 Debian的 12.82%。在桌面版中排名第三的 Slackware,以 22.40%的得票率获得年度 Linux伺服器版本的第一名,不过第二名与第三名的得票率也非常接近,分别为 21.86%的 CentOS,和 19.67%的 Debian Stable。
如何部署hadoop分布式文件系统
一、实战环境
系统版本:CentOS 5.8x86_64
JAVA版本:JDK-1.7.0_25
Hadoop版本:hadoop-2.2.0
192.168.149.128namenode(充当namenode、secondary namenode和ResourceManager角色)
192.168.149.129datanode1(充当datanode、nodemanager角色)
192.168.149.130datanode2(充当datanode、nodemanager角色)
二、系统准备
1、Hadoop可以从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src源码自行编译。(如果是真实线上环境,请下载64位hadoop版本,这样可以避免很多问题,这里我实验采用的是32位版本)
1234 Hadoop
Java
2、我们这里采用三台CnetOS服务器来搭建Hadoop集群,分别的角色如上已经注明。
第一步:我们需要在三台服务器的/etc/hosts里面设置对应的主机名如下(真实环境可以使用内网DNS解析)
[root@node1 hadoop]# cat/etc/hosts
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1localhost.localdomain localhost
192.168.149.128node1
192.168.149.129node2
192.168.149.130node3
(注*我们需要在namenode、datanode三台服务器上都配置hosts解析)
第二步:从namenode上无密码登陆各台datanode服务器,需要做如下配置:
在namenode 128上执行ssh-keygen,一路Enter回车即可。
然后把公钥/root/.ssh/id_rsa.pub拷贝到datanode服务器即可,拷贝方法如下:
ssh-copy-id-i.ssh/id_rsa.pub root@192.168.149.129
ssh-copy-id-i.ssh/id_rsa.pub root@192.168.149.130
三、Java安装配置
tar-xvzf jdk-7u25-linux-x64.tar.gz&&mkdir-p/usr/java/; mv/jdk1.7.0_25/usr/java/即可。
安装完毕并配置java环境变量,在/etc/profile末尾添加如下代码:
export JAVA_HOME=/usr/java/jdk1.7.0_25/
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=$JAVE_HOME/lib/dt.jar:$JAVE_HOME/lib/tools.jar:./
保存退出即可,然后执行source/etc/profile生效。在命令行执行java-version如下代表JAVA安装成功。
[root@node1~]# java-version
java version"1.7.0_25"
Java(TM) SE Runtime Environment(build 1.7.0_25-b15)
Java HotSpot(TM) 64-Bit Server VM(build 23.25-b01, mixed mode)
(注*我们需要在namenode、datanode三台服务器上都安装Java JDK版本)
四、Hadoop版本安装
官方下载的hadoop2.2.0版本,不用编译直接解压安装就可以使用了,如下:
第一步解压:
tar-xzvf hadoop-2.2.0.tar.gz&&mv hadoop-2.2.0/data/hadoop/
(注*先在namenode服务器上都安装hadoop版本即可,datanode先不用安装,待会修改完配置后统一安装datanode)
第二步配置变量:
在/etc/profile末尾继续添加如下代码,并执行source/etc/profile生效。
export HADOOP_HOME=/data/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin/
export JAVA_LIBRARY_PATH=/data/hadoop/lib/native/
(注*我们需要在namenode、datanode三台服务器上都配置Hadoop相关变量)
五、配置Hadoop
在namenode上配置,我们需要修改如下几个地方:
1、修改vi/data/hadoop/etc/hadoop/core-site.xml内容为如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl"href=\'#\'" Put site-specific property overrides inthisfile.-->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.149.128:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-${user.name}</value>
<description>A base forother temporary directories.</description>
</property>
</configuration>
2、修改vi/data/hadoop/etc/hadoop/mapred-site.xml内容为如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl"href=\'#\'" Put site-specific property overrides inthisfile.-->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.149.128:9001</value>
</property>
</configuration>
3、修改vi/data/hadoop/etc/hadoop/hdfs-site.xml内容为如下:
<?xml version="1.0"encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl"href=\'#\'"/name>
<value>/data/hadoop/data_name1,/data/hadoop/data_name2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop/data_1,/data/hadoop/data_2</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
4、在/data/hadoop/etc/hadoop/hadoop-env.sh文件末尾追加JAV_HOME变量:
echo"export JAVA_HOME=/usr/java/jdk1.7.0_25/">>/data/hadoop/etc/hadoop/hadoop-env.sh
5、修改 vi/data/hadoop/etc/hadoop/masters文件内容为如下:
192.168.149.128
6、修改vi/data/hadoop/etc/hadoop/slaves文件内容为如下:
192.168.149.129
192.168.149.130
如上配置完毕,以上的配置具体含义在这里就不做过多的解释了,搭建的时候不明白,可以查看一下相关的官方文档。
如上namenode就基本搭建完毕,接下来我们需要部署datanode,部署datanode相对简单,执行如下操作即可。
1 fori in`seq 129130`; doscp-r/data/hadoop/ root@192.168.149.$i:/data/; done
自此整个集群基本搭建完毕,接下来就是启动hadoop集群了。