课程大纲
第一部分:Hadoop 简介
- Hadoop 历史与概念
- 生态系统
- 发行版
- 高层架构
- Hadoop 误区
- Hadoop 挑战
- 硬件/软件
- 实验:初识 Hadoop
第二部分:HDFS
- 设计与架构
- 概念(水平扩展、复制、数据本地性、机架感知)
- 守护进程:Namenode、Secondary namenode、Data node
- 通信/心跳
- 数据完整性
- 读/写路径
- Namenode 高可用性 (HA)、联邦
- 实验:与 HDFS 交互
第三部分:Map Reduce
- 概念与架构
- 守护进程 (MRV1):jobtracker / tasktracker
- 阶段:driver、mapper、shuffle/sort、reducer
- Map Reduce 版本 1 和版本 2 (YARN)
- Map Reduce 内部机制
- Java Map Reduce 程序简介
- 实验:运行一个 MapReduce 示例程序
第四部分:Pig
- Pig 与 Java Map Reduce 对比
- Pig 作业流程
- Pig Latin 语言
- 使用 Pig 进行 ETL
- 转换与连接
- 用户定义函数 (UDF)
- 实验:编写 Pig 脚本来分析数据
第五部分:Hive
- 架构与设计
- 数据类型
- Hive 中的 SQL 支持
- 创建 Hive 表与查询
- 分区
- 连接
- 文本处理
- 实验:使用 Hive 处理数据的多个实验
第六部分:HBase
- 概念与架构
- HBase 与 RDBMS 与 Cassandra 对比
- HBase Java API
- HBase 上的时间序列数据
- 模式设计
- 实验:使用 shell 与 HBase 交互;使用 HBase Java API 编程;模式设计练习
要求
- 熟悉Java编程语言(大多数编程练习使用Java)
- 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)
实验环境
零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。
学生需要准备以下内容
- 一个SSH客户端(Linux和Mac已经自带SSH客户端,Windows推荐使用Putty)
- 一个浏览器来访问集群,推荐使用Firefox
客户评论 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
课程 - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
课程 - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
课程 - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay