ubuntu 12.04安装hadoop,Ubuntu软件中心

大家好,今天来为大家解答ubuntu 12.04安装hadoop这个问题的一些问题点,包括Ubuntu软件中心也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~

如何搭建hadoop集群 桥接

本文通过在vmware workstation上建立三台虚拟机来搭建hadoop集群环境,其中一台作为namenode,两台作为datanode。

一、安装vmware workstation(10.0.0)(一路下一步即可)

二、创建3个虚拟机

每个虚拟机安装Ubuntu桌面版(我用的11.10,但是有点老了,建议用12.04或更高版本)

namenode建议多给写内存,我的是namenode 1G内存,20G硬盘,datanode 800M内存,20G硬盘(我电脑内存8G,若内存不够可以少分点,但是可能有些卡)上网上式可设置为桥接方式:直接连接物理网络。

三、安装vmware tools(便于主机和虚拟机直接可以直接拖拽,复制粘贴)

点击vmware上虚拟机-》安装VMware tools,自动打开一个包含vmware安装包的位置,可以拷贝到你有权限的地方,例如/usr/src下用 sudo tar zxvf软件包名称解压,之后进入解压后的文件夹,执行

sudo./vmware-install.sh来安装,过程中遇见yes或no一律enter键,安装后重启生效。

四、配置共享目录(让主机和虚拟机直接方便实时共享)

对每个虚拟机,点击vmware上虚拟机-》设置-》选项,选择共享文件夹,永久共享,添加一个本机的目录所为共享目录,并为这个共享起一个名字,例如叫share。这样在虚拟机上的/mnt/hgfs下会自动生成share文件夹保持与主机上的目录实时一致。重启生效,有时生效较慢,多重启几次就行了,不知何故。

五,安装ssh,为了一会的免密码登陆

对每台虚拟机运行:sudo apt-get install openssh-server

若不成功,你可能需要更新一下资源列表了:sudo apt-get update

六、配置ssh无密码登录,方便namenode给datanode分配任务和汇总信息

说明:以下生成的秘钥默认保存在用户名空间,所以建议三台虚拟机建立同样的用户名,例如hadoop,也可以都用root用户。

在name node,和datanode都运行:

ssh-keygen–t dsa-P''–f~/.ssh/id_dsa(建议手打此命令,复制有时候不行,注意都是英文字符,-P的P是大写)

下面将三台虚拟机的公钥拷贝到共享目录中并重命名以供彼此配置使用

在name node:

scp~/.ssh/id_dsa.pub/mnt/hgfs/share/ id_dsa0.pub

在data node 1:

scp~/.ssh/id_dsa.pub/mnt/hgfs/share/ id_dsa1.pub

在data node 2:

scp~/.ssh/id_dsa.pub/mnt/hgfs/share/ id_dsa2.pub

将共享目录中公钥分别添加到三台虚拟机的授权下,分别在name node,data node 1和data node 2执行:

cat/mnt/hgfs/share/id_dsa0.pub>>~/.ssh/authorized_keys

cat/mnt/hgfs/share/id_dsa1.pub>>~/.ssh/authorized_keys

cat/mnt/hgfs/share/id_dsa2.pub>>~/.ssh/authorized_keys

测试:

ssh localhost

ssh目标机器地址

七,安装jdk

对每个虚拟机:

下载jdk(jdk1.6.0)并解压,假定目录为/usr/src/jdk1.6.0(如果你的不是,也可以改成是,这样下面的命令直接复制就行了)

设置环境变量。

#vi/etc/profile

在最后面加入

#set java environment

export JAVA_HOME=/usr/src/jdk1.6.0

export CLASSPATH=.:$JAVA_HOME/lib.tools.jar

export PATH=$JAVA_HOME/bin:$PATH

保存退出。

要使JDK在所有的用户中使用,可以这样:

vi/etc/profile.d/java.sh

在新的java.sh中输入以下内容:

#set java environment

export JAVA_HOME=/usr/src/jdk1.6.0

export CLASSPATH=.:$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

保存退出,然后给java.sh分配权限:chmod 755/etc/profile.d/java.sh

重启虚拟机

八、安装hadoop

在usr/src目录解压: tar zxvf hadoop-0.20.2.tar.gz

把hadoop的安装路径添加到/etc/profile中:

export HADOOP_HOME=/usr/src/hadoop-0.20.2

export PATH=$HADOOP_HOME/bin:$PATH

九、配置hadoop

在hadoop-0.20.1/conf目录:

(1)对3个虚拟机,在conf/hadoop-env.sh中配置java环境

vi hadoop-env.sh

在hadoop-env.sh文件中添加

export JAVA_HOME=/usr/src/jdk1.6.0

(2)用ifconfig命令查看ip地址,假定name node内部地址为192.168.204.157,data node 1和data node 2分别为192.168.204.162,192.168.204.173

对name node配置conf/masters和conf/slaves:

masters: 192.168.204.157

slaves: 192.168.204.162

192.168.204.173

(3)对name node, data node 1和data node2,配置conf/core-site.xml, conf/hdfs-site.xml及conf/mapred-site.xml,配置文件内的IP地址均配置为name node的IP地址(比如name node IP地址为192.168.204.157。

说明:因为三台上面这三个配置一样,所以配置一份,然后复制粘贴即可。

(又说明:下面之所以上图片是因为,新浪会把字符按html重新编译,无法正常显示,无奈啊)

十、运行hadoop

先把三台虚拟机的防火墙关了: sudo ufw disable

对name node:

进入hadoop-0.20.2/bin,首先格式化文件系统: hadoop namenode–format

对data node1和data node 2:

进入hadoop-0.20.2/bin,执行: hadoop datanode–format

对name node:,在bin目录下执行:

start-all.sh

hadoop dfsadmin–safemode leave

hadoop dfsadmin–report,查看节点情况,看到类似界面显示available的Datanodes。

用jps命令查看进程,NameNode上的结果为:

26745 JobTracker

29398 jps

27664 NameNode

Data Node 1的结果:

6718 TaskTracker

6042 DataNode

6750 jps

Data Node 2的结果:

12173 TaskTracker

10760 DataNode

12700 jps

至此,安装成功。

如何在ubuntu上安装hadoop

1、创建hadoop管理员帐号

直接在终端执行如下命令行:

1 sudo adduser hadoop

然后要求你设置hadoop帐户密码,这个命令是添加一个名为hadoop的标准帐户,我们需要的是管理员帐号

可以直接在图形界面下修改hadoop权限,将鼠标点击右上角的一个人头处,浮现列表,点击“用户账户”,解锁,然后更改为管理员权限

2、安装ssh服务

ssh可以实现远程登录和管理,详细情况请google百度

ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server。命令行:

1 sudo apt-get install ssh openssh-server

3、ssh无密码验证登录

创建ssh-key,这里我们采用rsa方式,命令行如下:

1 ssh-keygen-t rsa-P""

出现一个图形,出现的图形就是密码,不用管它

1 cat~/.ssh/id_rsa.pub>> authorized_keys

然后即可无密码验证登录了,如下:

1 ssh localhost

退出命令行为:

exit

4、解压hadoop源码包

终端下进入hadoop源码包所在目录,使用复制命令把hadoop源码包复制到/home/hadoop下

1 cp hadoop-1.2.1.tar.gz/home/hadoop

然后解压,命令行如下

tar-xzvf*.tag.gz

5、配置hadoop的hadoop/conf下的hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml

配置hadoop-1.2.1/conf/hadoop-env.sh,命令行:

1 gedit/home/hadoop/hadoop-1.2.1/conf/hadoop-env.sh

ctrl+ f搜索到JAVA_HOME

把前面的#去掉,加上本系统jdk路径,保存退出

配置hadoop-1.2.1/conf/core-site.xml,命令行:

gedit/home/hadoop/hadoop-1.2.1/conf/core-site.xml

在hadoop新建hadoop_tmp目录,

将如下<configuration></configuration>之间的添加进入,保存退出

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file.-->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/hadoop-1.2.1/hadoop_tmp</value>

<description>A base for other temporary directories.</description>

</property>

</configuration>

配置hadoop-1.2.1/conf/mapre-site.xml,命令行:

1 gedit/home/hadoop/hadoop-1.2.1/conf/mapre-site.xml.xml

将如下<configuration></configuration>之间的添加进入,保存退出

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file.-->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

配置hadoop-1.2.1/conf/hdfs-site.xml,命令行:

1 gedit/home/hadoop/hadoop-1.2.1/conf/hdfs-site.xml

将如下<configuration></configuration>之间的添加进入,保存退出

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file.-->

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

至此hadoop的安装配置已经完毕,稍后的是hadoop的初次运行操作

6、格式化hdfs文件系统

进入hadoop-1.2.1

/bin/hadoop namenode-format

7、启动hadoop服务

/bin/start-all.sh

出现如下画面

jps

jps是查看java虚拟机运行的java线程

然后出现如下画面

不计jps,有五个hadoop相关线程,恭喜你,hadoop安装配置成功,运行正常。

然后可以退出hadoop。,以后再用时再启动,导入数据

阅读剩余
THE END