如何快速构建可用的hadoop

无论我们是工作、生活，还是出行，都离不开大数据，大数据不仅可以方便我们的生产、生活，同时还可以保护我们的资金安全。这些都离不开庞大的数据分析和数据推理能力，要想实现数据回归和分类能力，就要求数据量足够大、同时服务器要有足够的存储能力和处理能力。要满足这些条件的话，就要去学习和认识大数据技术了。

首先要学习大数据技术、就要去了解什么是大数据？从字面来理解的话，就是数据量非常大、大到超过我们的认知。这样理解其实也没错，但是认识的面有点窄了，认识大数据应该从它的4v特征出发：

规模性（Volume）大数据中的数据计量单位是PB（1千个T）、EB（1百万个T）或ZB（10亿个T）。

多样性（Variety）多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

高速性（Velocity）大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析，数据输入、处理与丢弃立刻见效，几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

价值性（Value）大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小，而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法人工智能方法或数据挖掘方法深度分析，并运用于农业、金融、医疗等各个领域，以期创造更大的价值。

只有满足上述4v特征，才能被称为是大数据，学习大数据普通人而言，只需要了解工具和如何使用即可，作为行业内从业者就要了解大数据相关的论文、开源项目了，当然第一步就是要搭建基础大数据的平台，那让我们一起去学习如何构建hadoop吧。

构建基础版的hadoop平台，可以基于CenOS进行安装、也可以在VM虚拟机里面进行安装，本文为了以后更好的搭建分布式的hadoop平台的搭建，直接在docker中进行安装和使用。

快速构建hadoop平台

因为我们是基于CenOS8进行安装的，所以直接从docker中拉去CenOS8这个版本

docker pull centos:8 # 拉取CenOS8版本docker images # 查看是否有对应的镜像

然后，我们创建一个容器：

docker run -d centos:8 /usr/sbin/init # 创建一个容器

通过 docker ps 可以查看运行中的容器：

docker ps

配置 Java 与 SSH 环境

现在创建一个容器，名为 java_ssh_proto，用于配置一个包含 Java 和 SSH 的环境：

docker run -d --name=java_ssh_proto --privileged centos:8 /usr/sbin/init

然后进入容器:

docker exec -it java_ssh_proto bash

由于CentOS下载源，不是最新的，所以需要更新到最新的版本上，操作的主要思路为：在不删除源文件的基础上，将源文件备份下载最新centos8国内的yum源文件 * 更换地址

进入root，切换至yum.repos.d目录

cd /etc/yum.repos.d

创建新文件夹并将源文件备份为repo.bak

mkdir backup && mv *repo backup/

下载国内yum源文件

curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-8.repo

更新下载yum源地址

生成缓存

yum clean all && yum makecache

安装 OpenJDK 8 和 SSH 服务：

yum install -y java-1.8.0-openjdk-devel openssh-clients openssh-server

然后启用 SSH 服务：

systemctl enable sshd && systemctl start sshd

到这里为止，如果没有出现任何故障，一个包含 Java 运行环境和 SSH 环境的原型容器就被创建好了。这是一个非常关键的容器，建议大家在这里先在容器中用 exit 命令退出容器，然后运行以下下两条命令停止容器，并保存为一个名为 java_ssh 的镜像：

docker stop java_ssh_proto docker commit java_ssh_proto java_sshHadoop 安装下载 Hadoop

Hadoop 官网地址：http://hadoop.apache.org/ Hadoop 发行版本下载：https://hadoop.apache.org/releases.html

创建 Hadoop 单机容器docker run -d --name=hadoop-single --privileged java_ssh /usr/sbin/init

将下载好的 hadoop 压缩包拷贝到容器中的 /root 目录下：

docker cp hadoop-3.3.6.tar.gz hadoop-single:/root/

进入容器：

docker exec -it hadoop-single bash

进入 /root 目录：

cd /root

这里应该存放着刚刚拷贝过来的 hadoop-x.x.x.tar.gz 文件，现在解压它：

tar -zxvf hadoop-3.3.6.tar.gz

解压后将得到一个文件夹 hadoop-3.1.4，现在把它拷贝到一个常用的地方：

mv hadoop-3.1.4 /usr/local/hadoop

然后配置环境变量：

cd /etcvi bashrc

填入

export HADOOP_HOME=/usr/local/hadoopexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

然后保存，执行source bashrc.然后执行以下命令判断是否成功：

hadoop version

如果显示上图所示，证明已经安装成功，你可以继续学习HDFS、YARN、MapReduce等相关的知识了，很多教程和博客在安装的时候，环境变量这块介绍的不是很清楚，这里是个完整的项目，从基础安装到知识梳理、大数据相关知识介绍和项目开发的一系列的流程。

幸福双城资讯网

秘密课程