课程大纲

1.1Hadoop 概念

1.1.1HDFS的

    HDFS的设计 命令行界面 Hadoop 文件系统

1.1.2集群

    簇剖析 主节点/从节点 名称节点/数据节点

1.2数据操作

1.2.1MapReduce详解

    映射阶段 减少阶段 洗牌

1.2.2使用Map Reduce进行分析

    使用MapReduce进行分组 使用MapReduce进行频率分布和排序 绘制结果(GNU Plot) 使用MapReduce的直方图 使用MapReduce绘制散点图 解析复杂数据集 使用MapReduce和Combiners进行计数 生成报表

 

1.2.3数据清理

    文档清理 模糊字符串搜索 记录链接/重复数据删除 转换和排序活动日期 验证源可靠性 修剪异常值

1.2.4提取和转换数据

    转换日志 使用 Apache Pig 进行筛选 使用 Apache Pig 进行排序 使用 Apache Pig 进行会话化

1.2.5高级联接

    使用MapReduce在Mapper中连接数据 使用 Apache Pig 复制联接联接数据 使用 Apache Pig merge join 联接排序数据 使用 Apache Pig 倾斜联接联接偏斜数据 在 Apache 中使用映射端联接 Hive 在 Apache 中使用优化的全外部连接 Hive 使用外部键值存储联接数据

1.3性能诊断与优化技术

    地图 调查输入数据中的峰值 识别地图端数据倾斜问题 映射任务吞吐量 小文件 不可拆分的文件
减少 减速器太少或太多
  • 减少端数据倾斜问题
  • 降低任务吞吐量
  • 缓慢随机播放和排序
  • 竞争作业和计划程序限制
  • 堆栈转储和未优化的代码
  • 硬件故障
  • CPU 争用
  • 任务 提取和可视化任务执行时间
  • 分析地图并减少任务
  • 避免使用减速机
  • 筛选器和投影
  • 使用合路器
  • 使用比较器进行快速分拣
  • 收集倾斜数据
  • 减少偏斜缓解
  • 要求

    参与者不需要具备任何特定技能,因为培训的重点是最终用户在 Apache 下管理和操作数据的技能 Hadoop

     21 小时

    人数



    每位参与者的报价

    客户评论 (3)

    相关课程

    课程分类