Hadoop入门
Damoncai 12/15/2018  hadoop
# Hadoop四高
- 高可靠性
 - 高扩展性
 - 高效性
 - 高容错性
 
# Hadoop架构组成
# HDFS
分布式文件系统
- NameNode(nn)
 - DataNode(dn)
 - Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份
 
# YARN
资源协调者
- ResourceManager(RM):整个资源(内存、CPU等)的老大
 - NodeMangeer(NM):单个节点服务器资源老大
 - ApplicationMaster(AM):单个任务运行老大
 - Container:容器相当于一台独立的服务器,里面封装了任务运行时所需要的资源,如CPU、内存、磁盘、网络等
 

# MapReduce
- Map阶段并行处理输入数据
 - Reduce阶段对Map结果进行汇总
 
# HDFS、YARN、MapReduce 三者关系

# 大数据技术生态体系

# 安装
# JDK环境
# 安装Hadoop(https://archive.apache.org/dist/hadoop/common/)
前置安装
yum install -y epel-release net-tools1上传文件
解压文件
配置环境变量
#HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-3.1.3 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin1
2
3
4刷新配置
source /etc/profile1查看版本
hadoop -v1