黑狐家游戏

Hadoop伪分布式环境搭建指南,从零开始,轻松入门大数据处理,hadoop伪分布式搭建全过程

欧气 0 0

本文目录导读:

  1. 环境准备
  2. 安装步骤
  3. 验证安装

随着大数据时代的到来,越来越多的企业和组织开始关注大数据技术,Hadoop作为一款开源的大数据处理框架,以其高可靠性、高扩展性、低成本等优点,在国内外得到了广泛的应用,本文将为您详细介绍Hadoop伪分布式环境的搭建过程,帮助您轻松入门大数据处理。

环境准备

1、操作系统:本文以CentOS 7.0为例,其他Linux发行版也可参照。

Hadoop伪分布式环境搭建指南,从零开始,轻松入门大数据处理,hadoop伪分布式搭建全过程

图片来源于网络,如有侵权联系删除

2、JDK:Hadoop需要JDK的支持,建议使用1.8或更高版本。

3、SSH:为了方便远程登录,需要开启SSH服务。

4、网络环境:确保网络畅通,以便下载软件包。

安装步骤

1、安装JDK

(1)下载JDK安装包:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

(2)解压安装包:tar -zxvf jdk-8u231-linux-x64.tar.gz

(3)配置环境变量:编辑~/.bash_profile文件,添加以下内容:

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

(4)使环境变量生效:source ~/.bash_profile

2、安装SSH

(1)安装SSH服务:yum install openssh-server

(2)启动SSH服务:systemctl start sshd

(3)设置SSH服务开机自启:systemctl enable sshd

Hadoop伪分布式环境搭建指南,从零开始,轻松入门大数据处理,hadoop伪分布式搭建全过程

图片来源于网络,如有侵权联系删除

3、安装Hadoop

(1)下载Hadoop安装包:https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

(2)解压安装包:tar -zxvf hadoop-3.3.4.tar.gz

(3)配置Hadoop

(a)配置hadoop-env.sh:编辑etc/hadoop/hadoop-env.sh文件,添加以下内容:

export JAVA_HOME=/usr/local/jdk1.8.0_231

(b)配置core-site.xml:编辑etc/hadoop/core-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

(c)配置hdfs-site.xml:编辑etc/hadoop/hdfs-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

(d)配置mapred-site.xml:编辑etc/hadoop/mapred-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

(e)配置yarn-site.xml:编辑etc/hadoop/yarn-site.xml文件,添加以下内容:

<configuration>
    <property>
        <name>yarn.resourcemanager.host</name>
        <value>localhost</value>
    </property>
</configuration>

4、格式化HDFS

(1)启动HDFS守护进程:start-dfs.sh

(2)执行格式化命令:hdfs namenode -format

Hadoop伪分布式环境搭建指南,从零开始,轻松入门大数据处理,hadoop伪分布式搭建全过程

图片来源于网络,如有侵权联系删除

5、启动Hadoop服务

(1)启动HDFS守护进程:start-dfs.sh

(2)启动YARN守护进程:start-yarn.sh

(3)启动HistoryServer守护进程:mr-jobhistory-daemon.sh start historyserver

验证安装

1、访问HDFS Web界面:http://localhost:50070

2、访问YARN Web界面:http://localhost:8088

3、运行示例程序

在hadoop-3.3.4目录下,有一个示例程序wordcount,运行以下命令:

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount input output

在output目录下,将生成包含单词计数的文件。

本文详细介绍了Hadoop伪分布式环境的搭建过程,包括环境准备、安装步骤和验证安装,通过本文的指导,您应该能够轻松搭建起Hadoop伪分布式环境,并开始探索大数据处理的世界。

标签: #hadoop伪分布式的搭建

黑狐家游戏
  • 评论列表

留言评论