本文详细介绍了Hadoop伪分布式环境的搭建步骤和指南,从入门到实践,旨在帮助读者快速掌握Hadoop伪分布式环境的搭建方法。
本文目录导读:
在分布式计算领域,Hadoop 是一款非常流行的开源框架,它能够高效地处理海量数据,伪分布式模式是 Hadoop 集群的一种简化形式,适合初学者和小规模数据处理,本文将详细阐述如何搭建 Hadoop 伪分布式环境,从基础准备到环境配置,确保您能够顺利上手。
图片来源于网络,如有侵权联系删除
准备工作
1、硬件要求
- 操作系统:Linux(推荐使用 Ubuntu 或 CentOS)
- CPU:至少 2 核心处理器
- 内存:至少 4GB 内存(推荐 8GB)
- 硬盘:至少 100GB 硬盘空间
2、软件要求
- JDK:Java Development Kit,版本需与 Hadoop 版本兼容
- SSH:Secure Shell,用于集群节点间无密码登录
安装 JDK
1、下载 JDK 安装包
- 访问 Oracle 官网(https://www.oracle.com/java/technologies/javase-downloads.html)下载适合自己操作系统的 JDK 安装包。
2、安装 JDK
- 将下载的 JDK 安装包移动到指定目录,如/opt/jdk1.8.0_241
- 解压安装包:tar -zxvf jdk-8u241-linux-x64.tar.gz
- 设置环境变量:编辑/etc/profile
文件,添加以下内容:
```
export JAVA_HOME=/opt/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
```
- 使环境变量生效:source /etc/profile
3、验证 JDK 安装
- 输入java -version
查看安装的 JDK 版本
安装 SSH
1、安装 SSH 服务
- 输入sudo apt-get install openssh-server
(Ubuntu 系统)
- 输入sudo yum install openssh-server
(CentOS 系统)
2、生成 SSH 密钥对
- 输入ssh-keygen -t rsa
,按提示操作生成密钥对
3、将公钥复制到其他节点
- 将本机的公钥复制到其他节点的~/.ssh/authorized_keys
文件中,确保无密码登录
安装 Hadoop
1、下载 Hadoop 安装包
- 访问 Apache Hadoop 官网(https://hadoop.apache.org/releases.html)下载适合自己操作系统的 Hadoop 安装包。
2、安装 Hadoop
图片来源于网络,如有侵权联系删除
- 将下载的 Hadoop 安装包移动到指定目录,如/opt/hadoop-3.3.1
- 解压安装包:tar -zxvf hadoop-3.3.1.tar.gz
- 配置环境变量:编辑/etc/profile
文件,添加以下内容:
```
export HADOOP_HOME=/opt/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 使环境变量生效:source /etc/profile
3、配置 Hadoop
- 编辑hadoop-env.sh
文件,设置JAVA_HOME
为您的 JDK 路径
- 编辑core-site.xml
文件,配置以下内容:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-3.3.1/tmp</value>
</property>
</configuration>
```
- 编辑hdfs-site.xml
文件,配置以下内容:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
图片来源于网络,如有侵权联系删除
```
- 编辑mapred-site.xml
文件,配置以下内容:
```
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- 编辑yarn-site.xml
文件,配置以下内容:
```
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
4、格式化 HDFS
- 输入hdfs namenode -format
格式化 HDFS
5、启动 Hadoop 集群
- 输入start-dfs.sh
启动 HDFS
- 输入start-yarn.sh
启动 YARN
验证 Hadoop 集群
1、查看 HDFS Web 界面
- 访问http://localhost:50070
查看 HDFS Web 界面
2、查看 YARN Web 界面
- 访问http://localhost:8088
查看 YARN Web 界面
至此,Hadoop 伪分布式环境搭建完成,您可以在 Hadoop 集群上运行 MapReduce 程序,进行分布式计算,祝您学习愉快!
标签: #Hadoop伪分布式搭建
评论列表