hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从入门到实践

欧气 2024年10月08日 10:47 1 0

本文详细介绍了Hadoop伪分布式环境的搭建步骤和指南，从入门到实践，旨在帮助读者快速掌握Hadoop伪分布式环境的搭建方法。

本文目录导读：

准备工作
安装 JDK
安装 SSH
安装 Hadoop
验证 Hadoop 集群

在分布式计算领域，Hadoop 是一款非常流行的开源框架，它能够高效地处理海量数据，伪分布式模式是 Hadoop 集群的一种简化形式，适合初学者和小规模数据处理，本文将详细阐述如何搭建 Hadoop 伪分布式环境，从基础准备到环境配置，确保您能够顺利上手。

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从入门到实践

图片来源于网络，如有侵权联系删除

准备工作

1、硬件要求

- 操作系统：Linux（推荐使用 Ubuntu 或 CentOS）

- CPU：至少 2 核心处理器

- 内存：至少 4GB 内存（推荐 8GB）

- 硬盘：至少 100GB 硬盘空间

2、软件要求

- JDK：Java Development Kit，版本需与 Hadoop 版本兼容

- SSH：Secure Shell，用于集群节点间无密码登录

安装 JDK

1、下载 JDK 安装包

- 访问 Oracle 官网（https://www.oracle.com/java/technologies/javase-downloads.html）下载适合自己操作系统的 JDK 安装包。

2、安装 JDK

- 将下载的 JDK 安装包移动到指定目录，如/opt/jdk1.8.0_241

- 解压安装包：tar -zxvf jdk-8u241-linux-x64.tar.gz

- 设置环境变量：编辑/etc/profile 文件，添加以下内容：

```

export JAVA_HOME=/opt/jdk1.8.0_241

export PATH=$PATH:$JAVA_HOME/bin

```

- 使环境变量生效：source /etc/profile

3、验证 JDK 安装

- 输入java -version 查看安装的 JDK 版本

安装 SSH

1、安装 SSH 服务

- 输入sudo apt-get install openssh-server（Ubuntu 系统）

- 输入sudo yum install openssh-server（CentOS 系统）

2、生成 SSH 密钥对

- 输入ssh-keygen -t rsa，按提示操作生成密钥对

3、将公钥复制到其他节点

- 将本机的公钥复制到其他节点的~/.ssh/authorized_keys 文件中，确保无密码登录

安装 Hadoop

1、下载 Hadoop 安装包

- 访问 Apache Hadoop 官网（https://hadoop.apache.org/releases.html）下载适合自己操作系统的 Hadoop 安装包。

2、安装 Hadoop

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从入门到实践

图片来源于网络，如有侵权联系删除

- 将下载的 Hadoop 安装包移动到指定目录，如/opt/hadoop-3.3.1

- 解压安装包：tar -zxvf hadoop-3.3.1.tar.gz

- 配置环境变量：编辑/etc/profile 文件，添加以下内容：

```

export HADOOP_HOME=/opt/hadoop-3.3.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

- 使环境变量生效：source /etc/profile

3、配置 Hadoop

- 编辑hadoop-env.sh 文件，设置JAVA_HOME 为您的 JDK 路径

- 编辑core-site.xml 文件，配置以下内容：

```

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-3.3.1/tmp</value>

</property>

</configuration>

```

- 编辑hdfs-site.xml 文件，配置以下内容：

```

<name>dfs.replication</name>

</property>

</configuration>

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从入门到实践

图片来源于网络，如有侵权联系删除

```

- 编辑mapred-site.xml 文件，配置以下内容：

```

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 编辑yarn-site.xml 文件，配置以下内容：

```

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

4、格式化 HDFS

- 输入hdfs namenode -format 格式化 HDFS

5、启动 Hadoop 集群

- 输入start-dfs.sh 启动 HDFS

- 输入start-yarn.sh 启动 YARN

验证 Hadoop 集群

1、查看 HDFS Web 界面

- 访问http://localhost:50070 查看 HDFS Web 界面

2、查看 YARN Web 界面

- 访问http://localhost:8088 查看 YARN Web 界面

至此，Hadoop 伪分布式环境搭建完成，您可以在 Hadoop 集群上运行 MapReduce 程序，进行分布式计算，祝您学习愉快！

标签： #Hadoop伪分布式搭建