课程大纲

第一部分: Data Management 在 HDFS 中

  • 多种数据格式 (JSON / Avro / Parquet)
  • 压缩方案
  • 数据掩码
  • 实验: 分析不同数据格式, 启用压缩

第二部分: 高级 Pig

  • 用户自定义函数
  • Pig 库介绍 (ElephantBird / Data-Fu)
  • 使用 Pig 加载复杂结构化数据
  • Pig 调优
  • 实验: 高级 Pig 脚本编写, 解析复杂数据类型

第三部分: 高级 Hive

  • 用户自定义函数
  • 压缩表
  • Hive 性能调优
  • 实验: 创建压缩表, 评估表格式和配置

第四部分: 高级 HBase

  • 高级模式建模
  • 压缩
  • 批量数据导入
  • 宽表/高表比较
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能调优
  • 实验: 调优 HBase, 从 Pig 和 Hive 访问 HBase 数据, 使用 Phoenix 进行数据建模

要求

  • 熟悉Java编程语言(大多数编程练习使用Java)
  • 熟悉Linux环境(能够使用Linux命令行,使用vi/nano编辑文件)
  • 具备Hadoop的基础知识

实验环境

零安装:无需在学生机器上安装hadoop软件!将为学生提供可用的hadoop集群。

学生需要准备以下内容

  • SSH客户端(Linux和Mac已自带SSH客户端,Windows推荐使用Putty
  • 用于访问集群的浏览器。推荐使用Firefox浏览器
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类