centos6安装hadoop(centos6.10安装教程)

云服务器测评

2025-1-9

linux相关教程

大家好，今天小编来为大家解答centos6安装hadoop这个问题，centos6.10安装教程很多人还不知道，现在让我们一起来看看吧！

国内hadoop发行版有哪些公司在做,哪个比较好

国内hadoop发行版有哪些公司在做，哪个比较好？

星环资讯科技(上海)有限公司的TRANSWARP，用着不错，SQL相容性很好。

公司创始人孙元浩是2013年中国Hadoop Summit主席。曾是Intel资料中心软体部亚太区CTO，专注大资料基础技术的研发，并且在国内建立多个大资料应用案例，是Hadoop早期应用的开拓者。

国内有哪些比较好的 Linux发行版

最好的回归发行版：openSUSE

最可定制的发行版： Arch Linux

最好看的发行版：elementary OS

最好的教育作业系统：ezgo Linux

最佳新人：Solus

最好的教育作业系统：ezgo Linux

最好的云作业系统：Chrome OS

最好的笔记本作业系统：Ubuntu MATE

推荐一本书《linux就该这么学》，内容很富，值得一看。

国内linux发行版的话，主推deepin，成熟，有想法。自主软体相对靠谱，符合国人操作习惯。另外就是ubuntu麒麟了，不过个人感觉不如直接安原版ubuntu，虽然其他发行版挺多的，不过好多并不好用，而且一部分就是在骗经费。红旗死过一次，听说复活了，不过也实在没啥亮点

Linux装哪个发行版比较好？

如果你能玩透这两个系统，那基本上离玩家不远了。

玩这个就很Geek了，因为它是教你从0开始编译Linux核心，然后搭建出一个Linux发行版，挺有趣的，在这个过程中会学习到很多关于Linux更底层的东西，对于整个Linux有更深的了解

以上回答你满意么？

国内酒店设计公司都有哪些？哪个比较好？

HHD深圳假日东方设计做的出色，他们设计的酒店，会融入多种设计风格，让酒店的品味整体得到提升，可以更好地吸引住客！

哪个 Linux发行版比较好看

Elementary OS中文版-号称最漂亮的 Linux系统！基于 Ubuntu的精美发行版。

一般用来做桌面系统的linux发行版都是基于Ubuntu的。

建议你可以先选一个入手，以后可以慢慢换。 Gnome，KDE都可以尝试一下。

Linux哪个发行版比较好用？

推荐以下系统：

Fedora 7

Ubuntu 7.04

FedoraCore 6

之所以推荐上面的系统，是因为这些Linux发行版使用者数量多，而且都有很大的交流社群，网上也有很多资料可以查阅。

国内外流行的Linux发行版有哪些

1. RedHat

国内乃至全世界的Linux使用者最熟悉的发行版相比就是RedHat，1994年，Marc Ewing(美国人，卡内基梅隆大学毕业)释出了Red Hat Linux 1.0。目前RedHat分为两个系列：一个是Red Hat Enterprise Linux(简称RHEL)，redhat提供收费技术支援和更新，适合伺服器使用者;另一个是Fedora(第七版以前为Fedora Core)，它的定位是桌面使用者，Fedora是红帽公司新技术的实验场，许多新的技术都会在Fedora Core中检验，如果稳定的话红帽公司则会考虑加入Red Hat Enterprise Linux中。Fedora预计每年发行2～3次的发行版本。是RHEL的一个测试版本或预发版本，另外一个值得注意的是CentOS(Community Enterprise Operating System)，是RHEL原始码再编译的产物的免费版，它继承了Red Hat Linux的稳定性，而且又提供免费更新。2014年1月8日CentOS宣布加入红帽公司，承诺继续免费。目前最新版本分别是RHEL6.5、CentOS6.5、Fedara20。

2. SUSE

SUSE是欧洲大陆最流行的LINUX，也是现存的最古老的商业发行版之一，起源于德国，于2003年末被Novell收购。主要版本有：SUSE Linux，针对个人使用者，可以免费下载;另一个是SUSE Linux Enterprise Server(SLES)是基于企业伺服器端的。如果需要使用资料库高阶服务和电子邮件网路应用可以选SUSE。

3. Debian

Debian最早由Ian Murdock于1993年释出，是迄今为止组遵循GNU规范的linux系统。系统中绝大部分基础工具来自于GNU工程，因此“Debian”常指Debian GNU/Linux。最新版本是2013年5月4日释出的Debian7.0 wheezy。

4. Ubuntu

现在最流行的linux桌面系统是ubuntu。Ubuntu(乌班图)是基于Debian GNU/Linux，支援x86、amd64(即x64)和ppc架构，由全球化的专业开发团队(Canonical Ltd)打造的开源GNU/Linux作业系统。为桌面虚拟化提供支援平台。Ubuntu对GNU/Linux的普及特别是桌面普及作出了巨大贡献，由此使更多人共享开源的成果与精彩。uabntu主要版本有基于Gnome的ubuntu，基于KDE的Kubuntu，基于Xfce的Xubuntu你就根据自己的爱好在ubuntu、kubuntu以及xubuntu中选一款，三者的区别仅仅是桌面程式的不一样。ubuntu最新版本是13.10，于2013年10月17号释出(版本号基于释出日期)。

5. Gentoo

Gentoo是Linux世界最年轻的发行版本，正因为年轻，所以能吸取在她之前的所有发行版本的优点。Gentoo最初由Daniel Robbins(FreeBSD的开发者之一)建立，首个稳定版本释出于2002年。由于开发者对FreeBSD的熟识，所以Gentoo拥有媲美FreeBSD的广受美誉的ports系统——Portage包管理系统。不同于APT和YUM等二进位制档案分发的包管理系统，Portage是基于原始码分发的，必须编译后才能执行，对于大型软体而言比较慢，不过正因为所有软体都是在本地机器编译的，在经过各种定制的编译引数优化后，能将机器的硬体效能发挥到极致。Gentoo是所有Linux发行版本里安装最复杂的，但是又是安装完成后最便于管理的版本，也是在相同硬体环境下执行最快的版本。

国内极客联盟有哪些？哪个比较好？

知乐极客目前是最好的，他们那都是数码达人玩的高科技玩意。

哪个Linux的发行版比较好用

Linux系统开源的，所以有好多公司的，主要看你用作什么？有桌面版的方便从Windows过度：Ubuntu、SUSE等的，伺服器的话目前大部分都是Redhat的centos,目前都到centos 7.X版本了。

2017年度最热门 Linux桌面发行版由 Ubuntu以 18.17％的得票率夺冠，排在第二名的是 Linux Mint，得票率为 18.02％，Slackware以 16.79%排名第三，高于第四名 Debian的 12.82%。在桌面版中排名第三的 Slackware，以 22.40％的得票率获得年度 Linux伺服器版本的第一名，不过第二名与第三名的得票率也非常接近，分别为 21.86％的 CentOS，和 19.67％的 Debian Stable。

如何用cloudera manager接管已有hadoop的cdh版本集群

本文介绍如何搭建cloudera manager去接入已有hadoop组件（cdh），搜索国内资料并无整体介绍，没有任何参考文章可以借鉴；通过大数据qq交流群当中某老师提供的国外某篇cloudera cto的文章得到解决思路，经实验调试可以实现此功能。

下面进入本文主题。

一、下载必备文件：

1.cloudera manager：

大部分公司内大数据集群环境都无公网访问权限，针对当前集群系统环境和想要接入的cm版本找到对应版本离线包，对于redhat、centos系统来说el6就是redhat6、centos6系统，之后找到想要安装的cm版本，本文搭建过程采用cloudera-manager-el6-cm5.9.0_x86_64.tar.gz

2.cdh安装包：

本搭建过程采用CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel、CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.sha1，parcel文件为cdh压缩包，执行安装过程会进行解压并且上传到各节点；sha1文件内为压缩包的校验码

3.mysql的jdbc驱动jar包：

4.mysql5.6：

本搭建过程采用mysql5.6社区版源码包mysql-5.6.35.tar.gz

二、cloudera manager安装：

1.server端安装配置mysql5.6:

解压mysql安装包后执行

1 yuminstallcmakencurses-*-y

其余看编译输出，缺少什么包就再yum安装什么

进入mysql解压目录，执行

12 cmake-DCMAKE_INSTALL_PREFIX=/export/mysql5.6make&&makeinstall

如果没有报错继续执行

顺利执行过后将/etc/my.cnf删除或移走，在mysql安装目录当中简单编写my.cnf并启动，具体配置请根据自身环境进行设置，本文不对此内容赘述

2.解压cloudera-manager-el6-cm5.9.0_x86_64.tar.gz到安装目录：

默认cloudera和cm-5.9.0目录放置在/opt下，如果想放在其他目录须留意对应配置

3.导入数据，执行完成后会有cm库：

1/export/tmp/opt/cm-5.9.0/share/cmf/schema/scm_prepare_database.shmysqlcm-hlocalhost-uroot--scm-host127.0.0.1scmscmscm

4.登录mysql，进行必要的修改配置：

12 setglobalbinlog_format='ROW';grantallon*.*to'scm'@'%'identifiedby'scm';

否则默认binlog格式为statement，cm会启动报错

对scm进行所有主机的授权

5.cloudera manager server端配置：

创建用户

1 useradd--system--home=/opt/cm-5.9.0/run/cloudera-scm-server/--no-create-home--shell=/bin/false--comment"clouderaSCMuser"cloudera-scm

在之前的cloudera目录下创建parcel-repo目录，将CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel和CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.sha1放在此目录下，重命名sha1文件为sha，否则cm找不到sha文件无法进行校验，会重新去公网上下载压缩包

1 mvCDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.sha1CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel.sha

6.mysql jar包放入lib库：

将解压mysql-connector-java-5.1.40.tar.gz得到的文件放在/opt/cm-5.9.0/share/cmf/lib下

7.配置db连接信息：

1 vim/opt/cm-5.9.0/etc/cloudera-scm-server/db.properties

host由于mysql就装在本机所以写127地址即可，库名、用户名、密码遵循上面创建用户和授权的内容进行填写

8.配置cm启动脚本的java环境：

123 vim/opt/cm-5.9.0/etc/init.d/cloudera-scm-agentvim/opt/cm-5.9.0/etc/init.d/cloudera-scm-serverexportJAVA_HOME=/usr/java/jdk1.7.0_51

9.agent配置：

1 vim/export/tmp/opt/cm-5.9.0/etc/cloudera-scm-agent/config.ini

server_host配置server端的ip或者主机名

server_port和port没有修改，使用默认的即可

listening_ip可以不做修改

之后将/opt/cm-5.9.0此目录拷贝到其他agent节点的对应目录

注：须确保/opt/cm-5.9.0/lib/cloudera-scm-agent下的uuid文件删掉，否则会出现cm web中主机显示冲突的情况

10.启动服务：

server端执行

1/opt/cm-5.9.0/etc/init.d/cloudera-scm-serverstart

agent端执行

1/opt/cm-5.9.0/etc/init.d/cloudera-scm-agentstart

server端启动端口7180 7182

agent端启动端口9000

三、web配置：

1.添加cloudera management service：

浏览器访问server端地址的7180端口，用户名密码默认admin admin

登录后不按照提示进行安装，直接点击左上方主页，然后选择右边添加管理服务

填入管理员登录mysql的连接信息即可

审核更改页不用做任何更改

之后等待安装完成，安装过后会发现集群监控已经有数据，点选所有主机，检查所有主机检查各节点状态

回到主页，点击cluster1右侧的添加服务

2.添加hdfs服务：

选择hdfs继续，根据原有集群情况进行主机选择

审核更改部分可以根据现有集群配置进行填写，左侧会有对应参数名

需要注意的是，datanode数据目录不管原来所有者是谁必须要修改为hdfs，否则无法通过cm启动，并且原有集群对应进程要先停掉

点击继续后不要等待进程进行，直接返回主页，会发现hdfs集群角色已经添加

进入hdfs配置journalnode目录dfs.journalnode.edits.dir

之后启动集群，观察监控数据

注：其余hadoop组件接入原则也是停掉原有进程，修改对应目录属主为组件名称的用户，比如hdfs，yarn，同时修改cm上对应的关键配置。此种做法对程序环境改造很大，很多标准必须遵循cloudera manager的规则，而且有丢失hdfs元数据风险。

四、后记：

此次搭建cm集群遇到一些问题，比如添加hdfs角色后无法启动namenode，报错java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 16，可能数据不连续，通过hadoop namenode-recover命令进行修复后可以启动，此命令不敢保证在生产环境执行没有问题；又或者datanode无法启动，遇到以下报错Operation not permitted

之后发现原集群的对应目录所有者为hadoop，而根据其他角色启动进程的所有者hdfs来进行权限修改后datanode可以启动

centos 6.5怎么搭建hadoop2.7.3

总体思路，准备主从服务器，配置主服务器可以无密码SSH登录从服务器，解压安装JDK，解压安装Hadoop，配置hdfs、mapreduce等主从关系。

1、环境，3台CentOS6.5，64位，Hadoop2.7.3需要64位Linux，操作系统十几分钟就可以安装完成，

Master 192.168.0.182

Slave1 192.168.0.183

Slave2 192.168.0.184

2、SSH免密码登录，因为Hadoop需要通过SSH登录到各个节点进行操作，我用的是root用户，每台服务器都生成公钥，再合并到authorized_keys

(1)CentOS默认没有启动ssh无密登录，去掉/etc/ssh/sshd_config其中2行的注释，每台服务器都要设置，

#RSAAuthentication yes

#PubkeyAuthentication yes

(2)输入命令，ssh-keygen-t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh文件夹，每台服务器都要设置，

(3)合并公钥到authorized_keys文件，在Master服务器，进入/root/.ssh目录，通过SSH命令合并，

cat id_rsa.pub>> authorized_keys

ssh root@192.168.0.183 cat~/.ssh/id_rsa.pub>> authorized_keys

ssh root@192.168.0.184 cat~/.ssh/id_rsa.pub>> authorized_keys

(4)把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录

(5)完成，ssh root@192.168.0.183、ssh root@192.168.0.184就不需要输入密码了

3、安装JDK，Hadoop2.7需要JDK7，由于我的CentOS是最小化安装，所以没有OpenJDK，直接解压下载的JDK并配置变量即可

(1)下载“jdk-7u79-linux-x64.gz”，放到/home/java目录下

(2)解压，输入命令，tar-zxvf jdk-7u79-linux-x64.gz

(3)编辑/etc/profile

export JAVA_HOME=/home/java/jdk1.7.0_79

export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

(4)使配置生效，输入命令，source/etc/profile

(5)输入命令，java-version，完成

4、安装Hadoop2.7，只在Master服务器解压，再复制到Slave服务器

(1)下载“hadoop-2.7.0.tar.gz”，放到/home/hadoop目录下

(2)解压，输入命令，tar-xzvf hadoop-2.7.0.tar.gz

(3)在/home/hadoop目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name

5、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

6、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

7、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

8、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的mapred-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

</configuration>

9、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME，不设置的话，启动不了，

export JAVA_HOME=/home/java/jdk1.7.0_79

10、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目录下的slaves，删除默认的localhost，增加2个从节点，

192.168.0.183

192.168.0.184

11、将配置好的Hadoop复制到各个节点对应位置上，通过scp传送，

scp-r/home/hadoop 192.168.0.183:/home/

scp-r/home/hadoop 192.168.0.184:/home/

12、在Master服务器启动hadoop，从节点会自动启动，进入/home/hadoop/hadoop-2.7.0目录

(1)初始化，输入命令，bin/hdfs namenode-format

注意：执行这步的时候可能会报一个错误：

java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error

at java.net.InetAddress.getLocalHost(InetAddress.java:1505)

at org.apache.hadoop.net.DNS.resolveLocalHostname(DNS.java:264)

at org.apache.hadoop.net.DNS.<clinit>(DNS.java:57)

at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)

at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)

at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)

at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)

at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)

at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)

Caused by: java.net.UnknownHostException: tiancunPC: unknown error

at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)

at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)

at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)

at java.net.InetAddress.getLocalHost(InetAddress.java:1500)

... 8 more

16/11/11 19:15:23 WARN net.DNS: Unable to determine address of the host-falling back to"localhost" address

java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error

at java.net.InetAddress.getLocalHost(InetAddress.java:1505)

at org.apache.hadoop.net.DNS.resolveLocalHostIPAddress(DNS.java:287)

at org.apache.hadoop.net.DNS.<clinit>(DNS.java:58)