Hadoop伪分布式环境搭建指南，从零开始，轻松入门大数据处理，hadoop伪分布式搭建全过程

欧气 2024年11月25日 05:54 0 0

本文目录导读：

环境准备
安装步骤
验证安装

随着大数据时代的到来，越来越多的企业和组织开始关注大数据技术，Hadoop作为一款开源的大数据处理框架，以其高可靠性、高扩展性、低成本等优点，在国内外得到了广泛的应用，本文将为您详细介绍Hadoop伪分布式环境的搭建过程，帮助您轻松入门大数据处理。

环境准备

1、操作系统：本文以CentOS 7.0为例，其他Linux发行版也可参照。

Hadoop伪分布式环境搭建指南，从零开始，轻松入门大数据处理，hadoop伪分布式搭建全过程

图片来源于网络，如有侵权联系删除

2、JDK：Hadoop需要JDK的支持，建议使用1.8或更高版本。

3、SSH：为了方便远程登录，需要开启SSH服务。

4、网络环境：确保网络畅通，以便下载软件包。

安装步骤

1、安装JDK

（1）下载JDK安装包：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

（2）解压安装包：tar -zxvf jdk-8u231-linux-x64.tar.gz

（3）配置环境变量：编辑~/.bash_profile文件，添加以下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

（4）使环境变量生效：source ~/.bash_profile

2、安装SSH

（1）安装SSH服务：yum install openssh-server

（2）启动SSH服务：systemctl start sshd

（3）设置SSH服务开机自启：systemctl enable sshd

Hadoop伪分布式环境搭建指南，从零开始，轻松入门大数据处理，hadoop伪分布式搭建全过程

图片来源于网络，如有侵权联系删除

3、安装Hadoop

（1）下载Hadoop安装包：https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

（2）解压安装包：tar -zxvf hadoop-3.3.4.tar.gz

（3）配置Hadoop

（a）配置hadoop-env.sh：编辑etc/hadoop/hadoop-env.sh文件，添加以下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_231

（b）配置core-site.xml：编辑etc/hadoop/core-site.xml文件，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

（c）配置hdfs-site.xml：编辑etc/hadoop/hdfs-site.xml文件，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

（d）配置mapred-site.xml：编辑etc/hadoop/mapred-site.xml文件，添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（e）配置yarn-site.xml：编辑etc/hadoop/yarn-site.xml文件，添加以下内容：

<configuration>
    <property>
        <name>yarn.resourcemanager.host</name>
        <value>localhost</value>
    </property>
</configuration>

4、格式化HDFS

（1）启动HDFS守护进程：start-dfs.sh

（2）执行格式化命令：hdfs namenode -format

Hadoop伪分布式环境搭建指南，从零开始，轻松入门大数据处理，hadoop伪分布式搭建全过程

图片来源于网络，如有侵权联系删除

5、启动Hadoop服务

（1）启动HDFS守护进程：start-dfs.sh

（2）启动YARN守护进程：start-yarn.sh

（3）启动HistoryServer守护进程：mr-jobhistory-daemon.sh start historyserver

验证安装

1、访问HDFS Web界面：http://localhost:50070

2、访问YARN Web界面：http://localhost:8088

3、运行示例程序

在hadoop-3.3.4目录下，有一个示例程序wordcount，运行以下命令：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount input output

在output目录下，将生成包含单词计数的文件。

本文详细介绍了Hadoop伪分布式环境的搭建过程，包括环境准备、安装步骤和验证安装，通过本文的指导，您应该能够轻松搭建起Hadoop伪分布式环境，并开始探索大数据处理的世界。

标签： #hadoop伪分布式的搭建