centos搭建HBase,centos7 安装
大家好,centos搭建HBase相信很多的网友都不是很明白,包括centos7 安装也是一样,不过没有关系,接下来就来为大家分享关于centos搭建HBase和centos7 安装的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!
Atlas系列-编译部署-Atlas2.1.0独立部署
本文将为您详细介绍如何独立部署 Atlas 2.1.0版本,依赖组件包括 solr、hbase、zookeeper、hive、hadoop、kafka。我们将采用 Docker容器与 Linux环境进行部署。如果您在 Atlas的编译部署过程中遇到问题,本指南将提供解决方案。
部署流程如下:
部署环境
1. Linux环境:若无 Linux环境,可通过 Docker构建。如已安装 Linux,推荐使用 CentOS镜像,本文作者最初在 Windows环境下进行部署,并制作了一个 CentOS镜像。构建步骤如下:
1.拉取镜像
2.运行容器
2. Zookeeper环境搭建:使用 Docker方式搭建 Zookeeper,配置步骤包括:
1.拉取 Docker镜像
2.运行容器
3. Hadoop环境搭建:同样采用 Docker方式搭建 Hadoop,步骤如下:
1.拉取镜像
2.建立 Hadoop用的内部网络
3.创建并启动 Master容器,映射端口,如 10000端口用于 Hiveserver2,以便后续客户端通过 beeline连接 Hive
4.创建 Slave容器
5.修改 hosts文件,将 Master和 Slave的 IP地址映射到容器内部
6.启动 Hadoop,格式化 HDFS,并启动全部服务
7.访问 Web查看服务状态,如 hdfs: localhost:9870和 yarn: localhost:8088
4.部署 Hive:由于 Hive镜像与 Hadoop镜像整合,使用已启动的 Hadoop镜像进行部署:
1.进入 Master容器
2.修改配置文件,添加相关环境变量
3.执行源命令生效
4.完成数据库配置,确保与 Hive配置文件中的分隔符一致,并关闭 SSL验证
5.上传 MySQL驱动到 Hive的 lib目录,调整 jar包配置,确保 slf4j和 guava包版本一致
6.初始化元数据库,完成 Hive的安装与启动
7.修改 Hadoop权限配置
8.启动 Hiveserver2
9. Hbase搭建:由于使用 Docker遇到问题,改为在容器外搭建 Hbase环境。步骤包括:
1.拉取容器
2.创建并运行容器
3.进入容器
4.修改 Hbase配置
5.启动 Hbase
6.访问 Web界面地址 localhost:16010
10. Solr搭建:使用 Docker方式搭建 Solr,步骤如下:
1.拉取镜像
2.运行容器
3.创建 collection
4.访问 Web界面地址 localhost:8983
11. Atlas独立部署:Atlas 2.1.0版本独立部署依赖外部组件,不同于集成部署。步骤包括:
1.从 Apache Atlas下载源码,如 apache-atlas-2.1.0-server.tar.gz
2.使用 Docker镜像环境进行编译,选择之前构建的基础环境
3.将源码复制到容器内
4.修改 pom.xml文件以适应环境依赖
5.执行编译命令
6.解压/distro/target/apache-atlas-2.1.0-bin.tar.gz文件
7.进入 bin目录,启动应用
至此,Atlas 2.1.0版本独立部署完成,可访问 localhost:21000查看部署结果。
搭建大数据平台的具体步骤是什么
1、操作体系的挑选
操作体系一般使用开源版的RedHat、Centos或许Debian作为底层的构建渠道,要根据大数据渠道所要建立的数据剖析东西能够支撑的体系,正确的挑选操作体系的版本。
2、建立Hadoop集群
Hadoop作为一个开发和运行处理大规模数据的软件渠道,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop结构中最核心的规划是HDFS和MapReduce,HDFS是一个高度容错性的体系,合适布置在廉价的机器上,能够供给高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套能够从海量的数据中提取数据最终回来成果集的编程模型。在生产实践应用中,Hadoop非常合适应用于大数据存储和大数据的剖析应用,合适服务于几千台到几万台大的服务器的集群运行,支撑PB级别的存储容量。
3、挑选数据接入和预处理东西
面临各种来源的数据,数据接入便是将这些零散的数据整合在一起,归纳起来进行剖析。数据接入首要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的东西有Flume,Logstash,NDC(网易数据运河体系),sqoop等。
4、数据存储
除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value体系,布置在HDFS上,与Hadoop一样,HBase的目标首要是依靠横向扩展,通过不断的添加廉价的商用服务器,添加计算和存储才能。同时hadoop的资源管理器Yarn,能够为上层应用供给统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的优点。
5、挑选数据挖掘东西
Hive能够将结构化的数据映射为一张数据库表,并供给HQL的查询功能,它是建立在Hadoop之上的数据仓库根底架构,是为了削减MapReduce编写工作的批处理体系,它的出现能够让那些通晓SQL技术、可是不熟悉MapReduce、编程才能较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL言语查询、汇总、剖析数据。
6、数据的可视化以及输出API
关于处理得到的数据能够对接主流的BI体系,比如国外的Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可免费试用)等,将成果进行可视化,用于决策剖析;或许回流到线上,支撑线上业务的开展。