课程大纲

第 1 部分:Hadoop 简介

  • Hadoop 历史、概念
  • 生态系统
  • 分布
  • 高级体系结构
  • Hadoop 误区
  • Hadoop 挑战
  • 硬件/软件
  • 实验室:初探 Hadoop

第 2 部分:HDFS

  • 设计和架构
  • 概念(水平扩展、复制、数据局部性、机架感知)
  • 守护进程 : namenode, secondary namenode,Data node
  • 通信/心跳
  • 数据完整性
  • 读/写路径
  • Namenode 高可用性 (HA)、联邦
  • labs:与 HDFS 交互

第 3 部分:地图缩减

  • 概念和体系结构
  • 守护进程 (MRV1) : jobtracker / tasktracker
  • 阶段 : driver, mapper, shuffle/sort, reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce的内部结构
  • Java Map Reduce程序介绍
  • labs:运行示例MapReduce程序

第 4 节:猪

  • Pig 与 Java Map Reduce
  • 清管器作业流程
  • Pig Latin语言
  • 使用 Pig 的 ETL
  • 转换和连接
  • 用户定义函数 (UDF)
  • 实验室:编写 Pig 脚本来分析数据

第 5 节:Hive

  • 建筑与设计
  • 数据类型
  • SQL Hive 中的支持
  • 创建 Hive 表和查询
  • 分区
  • 加入
  • 文本处理
  • labs:使用 Hive 处理数据的各种实验室

第 6 部分:HBase

  • 概念和体系结构
  • hbase 与 RDBMS 与 cassandra
  • HBase Java API
  • HBase 上的时序数据
  • 模式设计
  • labs:使用 shell 与 HBase 交互; 在 HBase Java API 中编程;架构设计练习

要求

    熟悉 Java 编程
  • 语言(大多数编程练习都是用 Java 进行的)
  • 在 Linux 环境中感到舒适(能够导航 Linux 命令行,使用 vi / nano 编辑文件)

实验室环境

零安装: 无需在学生机器上安装hadoop软件!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • SSH 客户端(Linux 和 Mac 已经有 ssh 客户端,对于 Windows ,建议使用 Putty )
  • 用于访问群集的浏览器。我们推荐 Firefox浏览器
  28 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (3)

相关课程

课程分类