课程大纲

第一部分:HDFS中的数据管理

  • 各种数据格式(JSON/Avro/Parquet)
  • 压缩方案
  • 数据屏蔽
  • 实验:分析不同数据格式;启用压缩

第二部分:高级Pig

  • 用户自定义函数
  • Pig库介绍(ElephantBird/Data-Fu)
  • 使用Pig加载复杂结构化数据
  • Pig调优
  • 实验:高级Pig脚本编写,解析复杂数据类型

第三部分:高级Hive

  • 用户自定义函数
  • 压缩表
  • Hive性能调优
  • 实验:创建压缩表,评估表格式和配置

第四部分:高级HBase

  • 高级模式建模
  • 压缩
  • 批量数据导入
  • 宽表与高表比较
  • HBase与Pig
  • HBase与Hive
  • HBase性能调优
  • 实验:调优HBase;通过Pig和Hive访问HBase数据;使用Phoenix进行数据建模

要求

  • 熟悉Java编程语言(大多数编程练习使用Java)
  • 熟悉Linux环境(能够使用Linux命令行,使用vi/nano编辑文件)
  • 具备Hadoop的基本知识。

实验环境

零安装:无需在学生的机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。

学生需要以下内容

 21 小时

客户评论 (5)

即将举行的公开课程

课程分类