hadoop 伪分布式，hadoop伪分布式搭建的步骤

欧气 2024年09月30日 02:10 1 0

《Hadoop伪分布式搭建全流程：构建高效大数据处理环境》

图片来源于网络，如有侵权联系删除

一、环境准备

1、操作系统选择与安装

- 建议选择Linux操作系统，如Ubuntu或CentOS，这里以CentOS 7为例，在安装CentOS 7时，确保网络连接正常，选择合适的磁盘分区方案，安装完成后，更新系统软件包，使用命令yum update -y，这可以确保系统拥有最新的安全补丁和软件版本，为后续Hadoop的安装提供稳定的系统环境。

2、Java环境配置

- Hadoop运行依赖于Java环境，首先检查系统是否已安装Java，使用命令java -version，如果未安装，通过yum安装OpenJDK，执行命令yum install -y java - 1.8.0 - openjdk - devel，安装完成后，设置Java环境变量，编辑/etc/profile文件，在文件末尾添加如下内容：

```

export JAVA_HOME=/usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.292.b10 - 1.el7_9.x86_64

export PATH=$PATH:$JAVA_HOME/bin

```

- 保存文件后，执行source /etc/profile使环境变量生效。

二、Hadoop安装与配置

1、下载Hadoop

- 访问Hadoop官方网站（https://hadoop.apache.org/releases.html），选择合适的Hadoop版本进行下载，下载Hadoop 3.3.0版本，使用命令wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz将其下载到本地，下载完成后，使用命令tar -zxvf hadoop - 3.3.0.tar.gz解压到指定目录，如/usr/local/hadoop。

2、配置Hadoop核心文件

hadoop - env.sh：编辑/usr/local/hadoop/etc/hadoop/hadoop - env.sh文件，找到export JAVA_HOME这一行，将其修改为之前配置的Java安装路径，即export JAVA_HOME=/usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.292.b10 - 1.el7_9.x86_64。

core - site.xml：编辑/usr/local/hadoop/etc/hadoop/core - site.xml文件，添加如下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

hadoop 伪分布式，hadoop伪分布式搭建的步骤

图片来源于网络，如有侵权联系删除

```

hdfs - site.xml：编辑/usr/local/hadoop/etc/hadoop/hdfs - site.xml文件，添加以下配置：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

- 创建hadoop_data目录，使用命令mkdir -p /usr/local/hadoop/hadoop_data/namenode和mkdir -p /usr/local/hadoop/hadoop_data/datanode。

3、格式化HDFS

- 在安装和配置完成后，需要格式化HDFS文件系统，进入/usr/local/hadoop/bin目录，执行命令./hdfs namenode - format，这一步操作会初始化HDFS的元数据，创建必要的目录结构等。

三、启动Hadoop服务

1、启动HDFS服务

hadoop 伪分布式，hadoop伪分布式搭建的步骤

图片来源于网络，如有侵权联系删除

- 在/usr/local/hadoop/sbin目录下，执行命令./start - dfs.sh，启动后，可以使用命令jps查看是否有NameNode和DataNode进程正在运行，如果看到这两个进程，说明HDFS服务启动成功。

2、验证HDFS服务

- 使用命令hdfs dfs -mkdir /input在HDFS上创建一个名为/input的目录，然后可以将本地文件上传到HDFS上，例如使用命令hdfs dfs -put /etc/passwd /input将/etc/passwd文件上传到/input目录下，通过这些操作可以验证HDFS服务是否正常工作。

四、配置与启动YARN（可选）

1、配置yarn - site.xml

- 如果需要使用YARN（Yet Another Resource Negotiator）进行资源管理和任务调度，可以编辑/usr/local/hadoop/etc/hadoop/yarn - site.xml文件，添加如下配置：

```xml

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```