课程大纲

第 1 部分:Hadoop 简介

  • Hadoop 历史与概念
  • 生态系统
  • 分布
  • 高层架构
  • Hadoop 迷思
  • Hadoop 挑战
  • 硬体 / 软体
  • 实验室:初次接触 Hadoop

第 2 部分:HDFS

  • 设计与架构
  • 概念(水平扩展、复制、数据本地性、机架感知)
  • 守护进程:Namenode、Secondary namenode、Data node
  • 通信 / 心跳
  • 数据完整性
  • 读取 / 写入路径
  • Namenode 高可用性(HA)、联邦
  • 实验室:与 HDFS 互动

第 3 部分 : 映射缩减

  • 概念和架构
  • 守护进程 (MRV1):JobTracker / TaskTracker
  • 阶段:驱动程式、映射器、随机排序/排序、Reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce 的内部结构
  • Java Map Reduce 程式简介
  • labs : 执行范例 MapReduce 程式

第4部分:猪

  • pig 与 java map reduce
  • Pig 任务流程
  • 猪拉丁语
  • 使用 Pig 的 ETL
  • 转换与连接
  • 使用者定义函数 (UDF)
  • 实验室 : 编写 Pig 脚本来分析数据

第 5 部分:Hive

  • 建筑与设计
  • 数据类型
  • SQL Hive 中的支援
  • 创建 Hive 表和查询
  • 分区
  • 加入
  • 文本处理
  • 实验室 : 使用 Hive 处理资料的各种实验室

第 6 部分:HBase

  • 概念与架构
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • HBase 上的时间序列数据
  • 模式设计
  • 实验室:使用 shell 与 HBase 互动;使用 HBase Java API 进行编程;模式设计练习

要求

  • 熟悉Java编程语言(大多数编程练习使用Java)
  • 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)

实验环境

零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。

学生需要准备以下内容

  • SSH客户端(Linux和Mac已自带ssh客户端,Windows推荐使用Putty)
  • 用于访问集群的浏览器,推荐使用Firefox
 28 小时

客户评论 (5)

即将举行的公开课程

课程分类