课程大纲

第一部分: Data Management 在 HDFS 中

  • 多种数据格式 (JSON / Avro / Parquet)
  • 压缩方案
  • 数据掩码
  • 实验: 分析不同数据格式, 启用压缩

第二部分: 高级 Pig

  • 用户自定义函数
  • Pig 库介绍 (ElephantBird / Data-Fu)
  • 使用 Pig 加载复杂结构化数据
  • Pig 调优
  • 实验: 高级 Pig 脚本编写, 解析复杂数据类型

第三部分: 高级 Hive

  • 用户自定义函数
  • 压缩表
  • Hive 性能调优
  • 实验: 创建压缩表, 评估表格式和配置

第四部分: 高级 HBase

  • 高级模式建模
  • 压缩
  • 批量数据导入
  • 宽表/高表比较
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能调优
  • 实验: 调优 HBase, 从 Pig 和 Hive 访问 HBase 数据, 使用 Phoenix 进行数据建模

要求

  • 熟悉Java编程语言(大多数编程练习使用Java)。
  • 熟悉Linux环境(能够使用Linux命令行,使用vi/nano编辑文件)。
  • 具备Hadoop的基本知识。

实验环境

零安装:无需在学生的机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。

学生需要具备以下条件:

 21 小时

客户评论 (5)

即将举行的公开课程

课程分类