课程大纲
第 1 部分:HDFS 中的 Data Management
- 各种资料格式(JSON / Avro / Parquet)
- 压缩方案
- 数据掩码
- 实验室 : 分析不同的数据格式; 启用压缩
第 2 部分:高级 Pig
- 用户定义的函数
- Pig 库介绍 (ElephantBird / Data-Fu)
- 使用 Pig 载入复杂的结构化数据
- Pig 调优
- 实验 : 高级 Pig 文稿,解析复杂数据类型
第 3 部分:高级 Hive
- 用户定义的函数
- 压缩表
- Hive 性能调优
- 实验:创建压缩表、评估表格式和配置
第4部分:高级 HBase
- 高级架构建模
- 压缩
- 批量数据摄取
- 宽桌 / 高桌比较
- HBase 和 Pig
- HBase 和 Hive
- HBase 性能调优
- 实验室:调整 HBase;从Pig获取HBase数据& Hive;使用 Phoenix 进行数据建模
要求
- 熟悉 Java 程式设计语言(大多数程式设计练习都使用 Java)
- 在 Linux 环境中舒适(能够导航 Linux 命令行,使用 vi / nano 编辑档)
- Hadoop 的工作 知识。
实验室环境
零安装: 无需在学生的计算机上安装 Hadoop 软体!将为学生提供一个有效的hadoop集群。
学生将需要以下内容
- 一个 SSH 用户端(Linux 和 Mac 已经有 SSH 用户端,建议使用 Windows Putty )
- 用于访问集群的浏览器。我们推荐 Firefox 浏览器
客户评论 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
课程 - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
课程 - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
课程 - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay