centos hadoop 集群?hadoop集群是什么
大家好,今天小编来为大家解答centos hadoop 集群这个问题,hadoop集群是什么很多人还不知道,现在让我们一起来看看吧!
如何构建最优化的Hadoop集群
本文将逐步介绍这些部分的安装和配置:
•网络体系结构
•操作系统
•硬件要求
•Hadoop软件安装/设置
网络架构
根据我们目前能够拿到的文档,可以认为云内的节点越在物理上接近,越能获得更好的性能。根据经验,网络延时越小,性能越好。
为了减少背景流量,我们为这个云创建了一个虚拟专用网。另外,还为应用服务器们创建了一个子网,作为访问云的入口点。
这个虚拟专用网的预计时延大约是1-2毫秒。这样一来,物理临近性就不再是一个问题,我们应该通过环境测试来验证这一点。
建议的网络架构:
•专用TOR(Top of Rack)交换机
•使用专用核心交换刀片或交换机
•确保应用服务器“靠近”Hadoop
•考虑使用以太网绑定
操作系统
我们选择Linux作为操作系统。Linux有许多不同的发行版,包括Ubuntu、RedHat和CentOS等,无论选择哪一个都可以。基于支持和许可费用的考虑,我们最终选择了CentOS 5.7。最好是定制一个CentOS的映像,把那些需要的软件都预装进去,这样所有的机器可以包含相同的软件和工具,这是一个很好的做法。
根据Cloudera的建议,OS层应该采用以下设置:
•文件系统
Ext3文件系统
取消atime
不要使用逻辑卷管理
•利用alternatives来管理链接
•使用配置管理系统(Yum、Permission、sudoers等)
•减少内核交换
•撤销一般用户访问这些云计算机的权限
•不要使用虚拟化
•至少需要以下Linux命令:
/etc/alternatives
ln、chmod、chown、chgrp、mount、umount、kill、rm、yum、mkdir
硬件要求
由于Hadoop集群中只有两种节点(Namenode/Jobtracker和Datanode/Tasktracker),因此集群内的硬件配置不要超过两种或三种。
硬件建议:
•Namenode/Jobtracker:1Gb/s以太网口x2、16GB内存、4个CPU、100GB磁盘
•Datanode:1Gb/s以太网口x2、8GB内存、4个CPU、多个磁盘,总容量500GB以上
实际的硬件配置可以与我们建议的配置不同,这取决于你们需要存储和处理的数据量。但我们强烈建议不要在集群中混用不同的硬件配置,以免那些较弱的机器成为系统的瓶颈。
Hadoop的机架感知
Hadoop有一个“机架感知”特性。管理员可以手工定义每个slave数据节点的机架号。为什么要做这么麻烦的事情?有两个原因:防止数据丢失和提高网络性能。
为了防止数据丢失,Hadoop会将每个数据块复制到多个机器上。想象一下,如果某个数据块的所有拷贝都在同一个机架的不同机器上,而这个机架刚好发生故障了(交换机坏了,或者电源掉了),这得有多悲剧?为了防止出现这种情况,必须要有一个人来记住所有数据节点在网络中的位置,并且用这些知识来确定——把数据的所有拷贝们放在哪些节点上才是最明智的。这个“人”就是Name Node。
另外还有一个假设,即相比不同机架间的机器,同一个机架的机器之间有着更大的带宽和更小的延时。这是因为,机架交换机的上行带宽一般都小于下行带宽。而且(+本站微信networkworldweixin),机架内的延时一般也小于跨机架的延时(但也不绝对)。
机架感知的缺点则是,我们需要手工为每个数据节点设置机架号,还要不断地更新这些信息,保证它们是正确的。要是机架交换机们能够自动向Namenode提供本机架的数据节点列表,那就太棒了。
复制Hadoop集群之后无法访问端口50070的问题
在拷贝一台电脑的Hadoop集群到三台虚拟机上后,访问localhost:50070和(ip):50070时,页面无法打开。环境配置为VMWare 15 workstation和centOS 6。在尝试连接集群时,发现因为没有修改ip地址,导致三台虚拟机无法形成集群。在装完所有环境后,首次访问端口50070出现问题。启动Hadoop并执行jps命令后,发现namenode和datanode运行正常,本地ip可以ping通。但是,通过执行netstat-tnpl命令后发现端口状态正常。
检查防火墙设置,发现防火墙并未开启,排除防火墙影响。进一步查询hdfs-site.xml配置文件(路径:/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop),发现ip地址配置错误,原本应为ip地址,却误设为本机名bigdata01。根据逻辑分析,配置文件并无问题,但将bigdata01修改为虚拟机实际ip地址后,重启Hadoop服务,再次访问localhost:50070和(ip):50070时,页面成功打开,问题得到解决。
部署hadoop生产集群时为了域名转换需要哪些配置
一、实验环境:
Mac os下 VirtualBox中三台安装centos 6.3虚拟机
主机名
别名
IP地址
系统版本
角色
lhmaster
lhmaster.lihui.hadoop
192.168.1.4
Centos 6.3
master
lhslave01
lhslave01.lihui.hadoop
192.168.1.5
Centos 6.3
slave
lhslave02
lhslave02.lihui.hadoop
192.168.1.6
Centos 6.3
slave
配置说明:DNS服务器配置在lhmaster(master)节点上,对lhmaster、lhslave01、lhslave02节点的主机名进行解析。
二、安装配置DNS
1.安装bind软件包
检测bing是否安装,如图所示
未安装执行yum进行安装,如图
安装结果,如图
安装bing其他相关包,如下:
安装结果:如图
2.修改bind配置文件
1)执行命令 vim/etc/named.conf修改配置文件named.conf
修改前,如图
修改后:
2)修改配置文件named.rfc1912.zones,
在/etc/named.conf玩呢间最后是named.rfc1912.zones的路径
include"/etc/named.rfc1912.zones"
执行命令 vim/etc/named.rfc.1912.zones
修改结果如下图:
3)创建上一步中的域名配置文件lihui.hadoop.zone和反向配置文件1.168.192.in-addr.zone
如下命令:
[root@lhmaster lihui]# cd/var/named
[root@lhmaster named]# ls
chroot dynamic named.empty named.loopback
data named.ca named.localhost slaves
[root@lhmaster named]# cp-p named.localhost lihui.hadoop.zone
[root@lhmaster named]# cp-p named.localhost 1.168.192.in-addr.zone
[root@lhmaster named]# ls
1.168.192.in-addr.zone dynamic named.empty slaves
chroot lihui.hadoop.zone named.localhost
data named.ca named.loopback
--修改lihui.hadoop.zone和1.168.192.in-addr.zone
lihui.hadoop.zone中添加正向配置,如下:
1.168.192.in-addr.zone中添加反向配置,如下:
4)修改各节点/etc/resolv.conf文件
在每个节点的/etc/resolv.conf文件中加入服务器ip地址
本次测试加入:nameserver 192.168.1.4
注意:目前网上大部分资料中都是如此设置,设置完后运行没有什么问题,但是一旦重启机器后,/etc/resolv.conf会恢复原值,
所以使用另一种方式就是修改
/etc/sysconfig/network-scripts/ifcfg-eth0
这个文件:在其中加入 DNS1=192.168.4
这样设置后,/etc/resolv.conf里面根本就不需要设置。service network restart后,可以发现/etc/resolv.conf里面就有刚才加入的dns的解析ip了。
不过对于其他的系统是否也是这样的,要是遇到同样的问题。就这样设一下试试
3.验证测试