伪分布式hadoop实例，伪分布式hadoop集群搭建过程

欧气 2024年09月30日 02:50 2 0

本文目录导读：

环境准备
Hadoop安装
Hadoop配置文件修改
启动Hadoop集群
测试Hadoop集群

《搭建伪分布式Hadoop集群：从入门到实践》

随着大数据技术的不断发展，Hadoop作为处理海量数据的分布式框架，受到了广泛的关注，在学习和开发过程中，搭建伪分布式Hadoop集群是深入理解Hadoop工作原理的重要一步，伪分布式模式可以让我们在单台机器上模拟分布式环境，进行相关的开发和测试工作。

环境准备

1、操作系统

伪分布式hadoop实例，伪分布式hadoop集群搭建过程

图片来源于网络，如有侵权联系删除

- 建议选择Linux系统，例如Ubuntu或CentOS，这里以Ubuntu为例，确保系统已经安装并更新到最新版本。

2、Java环境

- Hadoop是基于Java开发的，所以需要安装Java Development Kit (JDK)，可以通过以下命令在Ubuntu上安装OpenJDK：

sudo apt - get update

sudo apt - get install openjdk - 8 - jdk

- 安装完成后，通过java - version命令检查Java是否安装成功。

Hadoop安装

1、下载Hadoop

- 访问Hadoop官方网站（https://hadoop.apache.org/），下载适合的Hadoop版本，可以选择下载Hadoop 3.x版本，将下载的压缩包解压到指定的目录，如/usr/local目录下：

sudo tar -zxvf hadoop - 3.x.x.tar.gz -C /usr/local

- 然后将解压后的文件夹重命名为hadoop，sudo mv hadoop - 3.x.x hadoop。

2、配置Hadoop环境变量

- 打开/etc/profile文件，添加以下内容：

export HADOOP_HOME = /usr/local/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

- 保存文件后，执行source /etc/profile使环境变量生效。

Hadoop配置文件修改

1、core - site.xml

- 在$HADOOP_HOME/etc/hadoop目录下找到core - site.xml文件，添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 这里将Hadoop的默认文件系统设置为HDFS，并指定了名称节点（NameNode）运行在本地的9000端口。

2、hdfs - site.xml

- 同样在$HADOOP_HOME/etc/hadoop目录下，修改hdfs - site.xml文件：

```xml

<name>dfs.replication</name>

伪分布式hadoop实例，伪分布式hadoop集群搭建过程

图片来源于网络，如有侵权联系删除

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

dfs.replication设置为1，因为在伪分布式环境下只有一个数据节点，同时指定了名称节点和数据节点的数据存储目录。

3、mapred - site.xml

- 从mapred - site.xml.template复制一份为mapred - site.xml：

cp mapred - site.xml.template mapred - site.xml

- 然后修改mapred - site.xml：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这里将MapReduce的框架名称设置为YARN。

4、yarn - site.xml

- 在yarn - site.xml文件中添加以下配置：

```xml

<name>yarn.nodemanager.aux - services</name>

伪分布式hadoop实例，伪分布式hadoop集群搭建过程

图片来源于网络，如有侵权联系删除

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

- 其中yarn.resourcemanager.hostname指定资源管理器（ResourceManager）运行在本地主机。

启动Hadoop集群

1、格式化HDFS

- 在首次启动Hadoop之前，需要格式化HDFS，在终端中执行以下命令：

hdfs namenode - format

- 这个过程会初始化HDFS的文件系统，创建相关的目录结构等。

2、启动Hadoop服务

- 启动HDFS：start - dfs.sh

- 启动YARN：start - yarn.sh

- 可以通过jps命令查看启动的进程，应该可以看到NameNode、DataNode、ResourceManager和NodeManager等进程。

测试Hadoop集群

1、创建HDFS目录并上传文件

- 在HDFS中创建一个目录：hdfs dfs - mkdir /test

- 然后将本地的一个文件上传到HDFS的/test目录下，hdfs dfs - put /local/file.txt /test

2、运行MapReduce示例程序

- Hadoop自带了一些MapReduce的示例程序，可以运行wordcount示例来测试MapReduce是否正常工作。

- 首先在HDFS上创建输入目录并上传一些文本文件：

hdfs dfs - mkdir /input

hdfs dfs - put /local/*.txt /input

- 然后运行wordcount程序：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.x.x.jar wordcount /input /output

- 运行完成后，可以查看/output目录下的结果文件，其中包含了输入文件中每个单词的出现次数统计。

通过以上步骤，我们成功搭建了伪分布式Hadoop集群，并进行了简单的测试，在这个过程中，我们深入了解了Hadoop的核心组件，如HDFS、MapReduce和YARN的配置和工作原理，这为进一步学习和开发基于Hadoop的大数据应用奠定了坚实的基础，在搭建和测试过程中，如果遇到问题，可以通过查看Hadoop的日志文件（位于$HADOOP_HOME/logs目录下）来进行排查，伪分布式环境虽然是模拟的分布式环境，但它能够让我们在资源有限的情况下快速掌握Hadoop的基本操作和开发流程。

标签： #伪分布式 #hadoop #实例 #集群搭建