课程大纲
第一部分: Data Management 在 HDFS 中
- 多种数据格式 (JSON / Avro / Parquet)
- 压缩方案
- 数据掩码
- 实验: 分析不同数据格式, 启用压缩
第二部分: 高级 Pig
- 用户自定义函数
- Pig 库介绍 (ElephantBird / Data-Fu)
- 使用 Pig 加载复杂结构化数据
- Pig 调优
- 实验: 高级 Pig 脚本编写, 解析复杂数据类型
第三部分: 高级 Hive
- 用户自定义函数
- 压缩表
- Hive 性能调优
- 实验: 创建压缩表, 评估表格式和配置
第四部分: 高级 HBase
- 高级模式建模
- 压缩
- 批量数据导入
- 宽表/高表比较
- HBase 和 Pig
- HBase 和 Hive
- HBase 性能调优
- 实验: 调优 HBase, 从 Pig 和 Hive 访问 HBase 数据, 使用 Phoenix 进行数据建模
要求
- 熟悉Java编程语言(大多数编程练习使用Java)
- 熟悉Linux环境(能够使用Linux命令行,使用vi/nano编辑文件)
- 具备Hadoop的基础知识
实验环境
零安装:无需在学生机器上安装hadoop软件!将为学生提供可用的hadoop集群。
学生需要准备以下内容
- SSH客户端(Linux和Mac已自带SSH客户端,Windows推荐使用Putty)
- 用于访问集群的浏览器。推荐使用Firefox浏览器
客户评论 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
课程 - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
课程 - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
课程 - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay