hadoop完全分布式环境搭建，hadoop完全分布式集群搭建截图

欧气 2024年10月01日 02:47 4 0

《Hadoop完全分布式集群搭建全流程解析与实践》

一、引言

随着大数据时代的发展，Hadoop作为一个开源的分布式计算框架，在数据存储和处理方面发挥着至关重要的作用，搭建Hadoop完全分布式集群是深入学习和应用Hadoop的基础，本文将详细介绍Hadoop完全分布式集群的搭建过程，并配以相关截图（由于无法直接提供截图，将详细描述截图应有的内容）。

二、环境准备

1、硬件要求

hadoop完全分布式环境搭建，hadoop完全分布式集群搭建截图

图片来源于网络，如有侵权联系删除

- 至少需要三台主机（为了更好地体现分布式特性），这里假设主机名为node1、node2和node3，每台主机的配置可以根据实际需求调整，但建议具有足够的内存（如4GB以上）和磁盘空间（如100GB以上）。

2、软件要求

- 操作系统：选择Linux操作系统，例如CentOS 7，在每台主机上安装相同版本的CentOS操作系统，确保系统更新到最新状态。

- Java环境：Hadoop是基于Java开发的，所以需要在每台主机上安装Java开发工具包（JDK），可以从Oracle官网下载适合的JDK版本，如JDK 8，安装完成后，需要配置Java环境变量，在每台主机的/etc/profile 文件中添加如下内容：

```bash

export JAVA_HOME=/usr/java/jdk1.8.0_xxx

export PATH=$PATH:$JAVA_HOME/bin

```

/usr/java/jdk1.8.0_xxx 是JDK的实际安装路径，执行source /etc/profile 使环境变量生效。

三、Hadoop安装与配置

1、下载与解压Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/）下载稳定版本的Hadoop，如Hadoop 3.x，将下载的压缩包上传到node1主机的/opt 目录下（可以使用工具如scp进行文件传输），然后在node1主机上执行解压命令：

```bash

tar -zxvf hadoop - 3.x.x.tar.gz

```

- 解压后的Hadoop目录可以重命名为hadoop，方便管理。

2、配置Hadoop核心文件

hadoop - env.sh：在Hadoop的安装目录下的etc/hadoop 中找到该文件，编辑它以设置Java环境变量，将export JAVA_HOME=${JAVA_HOME} 修改为export JAVA_HOME=/usr/java/jdk1.8.0_xxx。

core - site.xml：配置Hadoop的核心参数，例如指定Hadoop的文件系统的默认名称。

```xml

<name>fs.defaultFS</name>

</property>

</configuration>

```

hdfs - site.xml：用于配置HDFS（Hadoop分布式文件系统）相关参数。

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/data/hadoop/namenode</value>

hadoop完全分布式环境搭建，hadoop完全分布式集群搭建截图

图片来源于网络，如有侵权联系删除

</property>

<name>dfs.datanode.data.dir</name>

<value>/data/hadoop/datanode</value>

</property>

</configuration>

```

mapred - site.xml：与MapReduce任务相关的配置。

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

yarn - site.xml：配置YARN（Yet Another Resource Negotiator）资源管理器相关参数。

```xml

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

3、配置集群节点信息

- 在Hadoop的安装目录下的etc/hadoop 中，编辑slaves 文件（在较新的Hadoop版本中也可能是workers 文件），在该文件中添加集群中的所有数据节点的主机名，每行一个主机名，

```

node2

node3

```

四、集群部署与启动

1、将Hadoop安装目录分发到其他节点

hadoop完全分布式环境搭建，hadoop完全分布式集群搭建截图

图片来源于网络，如有侵权联系删除

- 在node1主机上，使用scp命令将Hadoop安装目录分发到node2和node3主机上。

```bash

scp -r /opt/hadoop node2:/opt/

scp -r /opt/hadoop node3:/opt/

```

2、格式化NameNode

- 在node1主机上，进入Hadoop的安装目录下的bin 目录，执行格式化NameNode的命令：

```bash

./hdfs namenode - format

```

- 此时如果操作成功，会显示格式化成功的相关信息，可以截取命令执行结果的截图，截图中应显示如 “Formatting using clusterid: CID - xxx” 等关键信息，表示NameNode格式化成功。

3、启动集群

- 在node1主机上，进入Hadoop的安装目录下的sbin 目录，执行启动集群的命令：

```bash

start - all.sh

```

- 启动过程中，可以分别登录到node1、node2和node3主机上，使用jps 命令查看相关进程是否启动，在node1主机上应该看到NameNode、ResourceManager等进程启动，在node2和node3主机上应该看到DataNode和NodeManager等进程启动，可以分别截取每个主机执行jps 命令的截图，截图中清晰显示相关进程的名称和进程ID。

五、集群测试

1、创建HDFS目录并上传文件

- 在node1主机上，执行以下命令创建一个HDFS目录：

```bash

hdfs dfs - mkdir /test

```

- 然后上传一个本地文件到该目录，

```bash

hdfs dfs - put /local/file.txt /test

```

- 可以截取执行这些命令的截图，截图中显示命令的执行结果，如成功创建目录和上传文件后的提示信息。

2、运行MapReduce示例程序