课程大纲

第 1 部分:HDFS 中的数据 Management

  • 各种数据格式(JSON / Avro / Parquet)
  • 压缩方案
  • 数据脱敏
  • 实验室:分析不同的数据格式;启用压缩

第 2 部分:高级清管器

  • 用户定义的函数
  • Pig 库简介 (ElephantBird / Data-Fu)
  • 使用 Pig 加载复杂的结构化数据
  • 清管器调整
  • 实验室:高级清管脚本,解析复杂数据类型

第 3 部分:高级 Hive

  • 用户定义的函数
  • 压缩表
  • Hive 性能调优
  • 实验室:创建压缩表,评估表格式和配置

第 4 部分:高级 HBase

  • 高级模式建模
  • 压缩
  • 批量数据摄取
  • 宽工作台/高工作台比较
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能调优
  • 实验室:调整 HBase;从 Pig 访问 HBase 数据 & Hive;使用 Phoenix 进行数据建模

要求

    熟悉 Java 编程
  • 语言(大多数编程练习都是用 Java 进行的)
  • 在 Linux 环境中感到舒适(能够导航 Linux 命令行,使用 vi / nano 编辑文件)
  • Hadoop 的应用  知识。

实验室环境

零安装: 无需在学生机器上安装hadoop软件!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • SSH 客户端(Linux 和 Mac 已经有 ssh 客户端,对于 Windows 建议使用 Putty )
  • 用于访问群集的浏览器。我们推荐 Firefox浏览器
 21 小时

人数



每位参与者的报价

客户评论 (3)

相关课程

课程分类