centos spark安装(spark软件)

2025-1-9

本文档详细记录了在CentOS7的最小化系统虚拟机中安装pyspark的步骤，涉及的版本均为2019年1月的最新版，包括Java 1.8.0，Hadoop 3.0.3，Python 3.7.2和Spark 2.4.0。

首先，从下载链接下载所有需要的软件包，存储在/root/download目录下，然后在/usr/local目录下进行安装。在CentOS 7的配置中，要确保网络连接自动启动，设置静态IP，并安装wget以进行后续操作。

安装Java时，将下载的文件解压到/usr/local/java，然后编辑环境变量文件。通过检查是否显示Java安装成功，确认安装过程已成功。

安装Hadoop，将文件解压到/usr/local/hadoop，编辑环境变量，配置文件中的路径和用户设置，初始化HDFS文件系统，创建hadoop3用户，并设置SSH免密码登录。启动HDFS和YARN后，可通过jps命令验证服务运行，并关闭防火墙服务以允许外部访问。

Python3的安装则需要添加必要的软件源，进行解压和编译，创建python3和pip3的软链接，并确认安装成功。编辑yum和urlgrabber-ext-down以适应Python3环境。

最后，编辑/etc/profile，为pyspark设置环境变量，启动Spark后，看到Spark界面即表示安装完成。

基于 CentOS6.4环境编译 Spark-2.1.0源码

本文探讨在实际开发实践中，有时直接使用 Spark官方提供的安装包可能无法满足特定需求。为深入理解 Spark并更灵活地使用其功能，学习根据源码进行编译显得尤为重要。

在进行 Spark源码编译前，确保系统已安装 Java 7，并选择合适的版本，例如 JDK 1.7.0_51。将所有软件安装在用户根目录下的 app文件夹内。接下来，安装 Maven 3.3.9，下载并根据官方指南进行安装。

接着，前往 Spark官网下载 Spark-2.1.0源码包。解压后，将根据官方文档中的介绍使用 dev目录下的 make-distribution.sh脚本来编译源码。在编译过程中，可自定义参数以适应特定环境，如指定的 Hadoop版本、运行环境（如 YARN）以及支持的工具（如 Hive）。

编译完成后，会在 Spark源码根目录生成一个包含所需配置的安装包，例如 spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz。此包即为编译结果，可用于安装 Spark。

理解编译生成安装包的命名逻辑，对于优化 Spark配置至关重要。在 make-distribution.sh脚本的末尾，可以看到用于生成安装包名的代码块，其依据 Spark版本和编译时指定的参数进行命名。

在编译过程中，可能遇到依赖包下载时间过长的问题，这通常由于网络不稳定导致。此时，可尝试中断编译进程，稍后重新运行命令，或开启虚拟专用网络（VPN）以优化网络环境，从而加速编译过程。

遵循以上步骤，结合对官方文档的深入理解，可实现对 Spark源码的高效编译和优化。此过程不仅有助于提高对 Spark的掌握程度，还能针对特定需求定制 Spark配置，提高开发效率。

Spark 3.0的安装启动流程如下：

首先，确保你的环境已经安装了Hadoop 3.1，Spark 3.0版本，并且运行在Centos 7系统上。Hadoop的安装为Spark提供了HDFS支持和YARN调度功能。

安装步骤如下：

从官网下载Spark 3.0的资源包，解压至/usr/local目录，并将权限设置为hadoop用户所有：

sudo chown-R hadoop:hadoop/usr/local/spark/spark-3.0

配置环境变量，添加到系统路径：

export HADOOP_HOME=/usr/local/hadoop/hadoop-3.1.0

export SPARK_HOME=/usr/local/spark/spark-3.0

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:${SPARK_HOME}/bin

在conf目录下，编辑spark-env.sh，配置Java、Hadoop路径、Spark Master节点、内存和CPU核心数：

(省略spark-env.sh的具体配置)

设置slaves文件，包含集群节点，如h01、h03和h04：

h01

h03

h04

将Spark目录复制到其他节点，并使用sbin下的start-all.sh命令启动集群。启动成功后，通过浏览器检查Master节点的8080端口，看到三个节点即安装完成。

安装完毕后，你可以通过提交Spark Demo来测试。例如，运行WordCount示例，将root.log上传到HDFS，然后使用spark-submit命令提交任务：

spark-submit--class WordCount--name WordCount--master h01--deploy-mode cluster com.sparkstudy-1.0-SNAPSHOT.jar/user/hdfs/root.log

执行后，查看Spark的输出结果，验证程序是否运行正常。

阅读剩余

作者：云服务器测评

链接：https://www.i40.top/linux/8665.html

文章版权归作者所有，未经允许请勿转载。

THE END