课程大纲

第 1 部分:Hadoop 简介

  • Hadoop 历史, 概念
  • 生态系统
  • 分布
  • 高级架构
  • Hadoop 神话
  • Hadoop 挑战
  • 硬体 / 软体
  • 实验室:首先看 Hadoop

第 2 部分:HDFS

  • 设计和架构
  • 概念(水平扩展、复制、资料局部性、机架感知)
  • 守护进程:Namenode、 Secondary namenode、 Data node
  • 通信 / 心跳
  • 数据完整性
  • 读/写路径
  • Namenode 高可用性 (HA),联合
  • 实验室:与 HDFS 交互

第 3 部分 : 映射缩减

  • 概念和架构
  • 守护进程 (MRV1):JobTracker / TaskTracker
  • 阶段:驱动程式、映射器、随机排序/排序、Reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce 的内部结构
  • Java Map Reduce 程式简介
  • labs : 执行范例 MapReduce 程式

第4部分:猪

  • pig 与 java map reduce
  • Pig 任务流程
  • 猪拉丁语
  • 使用 Pig 的 ETL
  • 转换与连接
  • 使用者定义函数 (UDF)
  • 实验室 : 编写 Pig 脚本来分析数据

第 5 部分:Hive

  • 建筑与设计
  • 数据类型
  • SQL Hive 中的支援
  • 创建 Hive 表和查询
  • 分区
  • 加入
  • 文本处理
  • 实验室 : 使用 Hive 处理资料的各种实验室

第 6 部分:HBase

  • 概念和 架构
  • hbase 与 RDBMS 与 Cassandra
  • HBase Java 应用程式介面
  • HBase 上的时间序列数据
  • 架构设计
  • labs : 使用 shell 与 HBase 交互;  在 HBase Java API 中程式设计;架构设计练习

要求

  • 熟悉 Java 程式设计语言(大多数程式设计练习都是用 Java 进行的)
  • 在 Linux 环境中舒适(能够导航 Linux 命令行,使用 vi / nano 编辑档)

实验室环境

零安装 : 无需在学生的机器上安装 Hadoop 软体!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • SSH 用户端(Linux 和 Mac 已经有 SSH 用户端,建议使用 Windows Putty )
  • 用于访问集群的浏览器。我们推荐 Firefox 浏览器
 28 小时

客户评论 (5)

即将举行的公开课程

课程分类