课程大纲
第 1 部分:Hadoop 简介
- Hadoop 历史, 概念
- 生态系统
- 分布
- 高级架构
- Hadoop 神话
- Hadoop 挑战
- 硬体 / 软体
- 实验室:首先看 Hadoop
第 2 部分:HDFS
- 设计和架构
- 概念(水平扩展、复制、资料局部性、机架感知)
- 守护进程:Namenode、 Secondary namenode、 Data node
- 通信 / 心跳
- 数据完整性
- 读/写路径
- Namenode 高可用性 (HA),联合
- 实验室:与 HDFS 交互
第 3 部分 : 映射缩减
- 概念和架构
- 守护进程 (MRV1):JobTracker / TaskTracker
- 阶段:驱动程式、映射器、随机排序/排序、Reducer
- Map Reduce 版本 1 和版本 2 (YARN)
- Map Reduce 的内部结构
- Java Map Reduce 程式简介
- labs : 执行范例 MapReduce 程式
第4部分:猪
- pig 与 java map reduce
- Pig 任务流程
- 猪拉丁语
- 使用 Pig 的 ETL
- 转换与连接
- 使用者定义函数 (UDF)
- 实验室 : 编写 Pig 脚本来分析数据
第 5 部分:Hive
- 建筑与设计
- 数据类型
- SQL Hive 中的支援
- 创建 Hive 表和查询
- 分区
- 加入
- 文本处理
- 实验室 : 使用 Hive 处理资料的各种实验室
第 6 部分:HBase
- 概念和 架构
- hbase 与 RDBMS 与 Cassandra
- HBase Java 应用程式介面
- HBase 上的时间序列数据
- 架构设计
- labs : 使用 shell 与 HBase 交互; 在 HBase Java API 中程式设计;架构设计练习
要求
- 熟悉 Java 程式设计语言(大多数程式设计练习都是用 Java 进行的)
- 在 Linux 环境中舒适(能够导航 Linux 命令行,使用 vi / nano 编辑档)
实验室环境
零安装 : 无需在学生的机器上安装 Hadoop 软体!将为学生提供一个有效的hadoop集群。
学生将需要以下内容
- SSH 用户端(Linux 和 Mac 已经有 SSH 用户端,建议使用 Windows Putty )
- 用于访问集群的浏览器。我们推荐 Firefox 浏览器
客户评论 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
课程 - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
课程 - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
课程 - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay