感谢您的预订!我们的团队成员将会尽快与您取得联系。
感谢您的预订!我们的团队成员将会尽快与您取得联系。
课程大纲
第 1 部分:Hadoop 简介
- Hadoop 历史、概念
- 生态系统
- 分布
- 高级体系结构
- Hadoop 误区
- Hadoop 挑战
- 硬件/软件
- 实验室:初探 Hadoop
第 2 部分:HDFS
- 设计和架构
- 概念(水平扩展、复制、数据局部性、机架感知)
- 守护进程 : namenode, secondary namenode,Data node
- 通信/心跳
- 数据完整性
- 读/写路径
- Namenode 高可用性 (HA)、联邦
- labs:与 HDFS 交互
第 3 部分:地图缩减
- 概念和体系结构
- 守护进程 (MRV1) : jobtracker / tasktracker
- 阶段 : driver, mapper, shuffle/sort, reducer
- Map Reduce 版本 1 和版本 2 (YARN)
- Map Reduce的内部结构
- Java Map Reduce程序介绍
- labs:运行示例MapReduce程序
第 4 节:猪
- Pig 与 Java Map Reduce
- 清管器作业流程
- Pig Latin语言
- 使用 Pig 的 ETL
- 转换和连接
- 用户定义函数 (UDF)
- 实验室:编写 Pig 脚本来分析数据
第 5 节:Hive
- 建筑与设计
- 数据类型
- SQL Hive 中的支持
- 创建 Hive 表和查询
- 分区
- 加入
- 文本处理
- labs:使用 Hive 处理数据的各种实验室
第 6 部分:HBase
- 概念和体系结构
- hbase 与 RDBMS 与 cassandra
- HBase Java API
- HBase 上的时序数据
- 模式设计
- labs:使用 shell 与 HBase 交互; 在 HBase Java API 中编程;架构设计练习
要求
-
熟悉 Java 编程
- 语言(大多数编程练习都是用 Java 进行的)
- 在 Linux 环境中感到舒适(能够导航 Linux 命令行,使用 vi / nano 编辑文件)
实验室环境
零安装: 无需在学生机器上安装hadoop软件!将为学生提供一个有效的hadoop集群。
学生将需要以下内容
- SSH 客户端(Linux 和 Mac 已经有 ssh 客户端,对于 Windows ,建议使用 Putty )
- 用于访问群集的浏览器。我们推荐 Firefox浏览器
28 小时
客户评论 (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
课程 - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
课程 - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay