Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
1.1Hadoop 概念
1.1.1HDFS的
-
HDFS的设计
命令行界面
Hadoop 文件系统
1.1.2集群
-
簇剖析
主节点/从节点
名称节点/数据节点
1.2数据操作
1.2.1MapReduce详解
-
映射阶段
减少阶段
洗牌
1.2.2使用Map Reduce进行分析
-
使用MapReduce进行分组
使用MapReduce进行频率分布和排序
绘制结果(GNU Plot)
使用MapReduce的直方图
使用MapReduce绘制散点图
解析复杂数据集
使用MapReduce和Combiners进行计数
生成报表
1.2.3数据清理
-
文档清理
模糊字符串搜索
记录链接/重复数据删除
转换和排序活动日期
验证源可靠性
修剪异常值
1.2.4提取和转换数据
-
转换日志
使用 Apache Pig 进行筛选
使用 Apache Pig 进行排序
使用 Apache Pig 进行会话化
1.2.5高级联接
-
使用MapReduce在Mapper中连接数据
使用 Apache Pig 复制联接联接数据
使用 Apache Pig merge join 联接排序数据
使用 Apache Pig 倾斜联接联接偏斜数据
在 Apache 中使用映射端联接 Hive
在 Apache 中使用优化的全外部连接 Hive
使用外部键值存储联接数据
1.3性能诊断与优化技术
-
地图
调查输入数据中的峰值
识别地图端数据倾斜问题
映射任务吞吐量
小文件
不可拆分的文件
要求
参与者不需要具备任何特定技能,因为培训的重点是最终用户在 Apache 下管理和操作数据的技能 Hadoop
21 小时
客户评论 (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
课程 - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
课程 - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay