Hadoop入门
Damoncai 12/15/2018 hadoop
# Hadoop四高
- 高可靠性
- 高扩展性
- 高效性
- 高容错性
# Hadoop架构组成
# HDFS
分布式文件系统
- NameNode(nn)
- DataNode(dn)
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份
# YARN
资源协调者
- ResourceManager(RM):整个资源(内存、CPU等)的老大
- NodeMangeer(NM):单个节点服务器资源老大
- ApplicationMaster(AM):单个任务运行老大
- Container:容器相当于一台独立的服务器,里面封装了任务运行时所需要的资源,如CPU、内存、磁盘、网络等
# MapReduce
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
# HDFS、YARN、MapReduce 三者关系
# 大数据技术生态体系
# 安装
# JDK环境
# 安装Hadoop(https://archive.apache.org/dist/hadoop/common/)
前置安装
yum install -y epel-release net-tools
1上传文件
解压文件
配置环境变量
#HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-3.1.3 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
1
2
3
4刷新配置
source /etc/profile
1查看版本
hadoop -v
1