课程大纲

1:HDFS (17%)

  • 描述 HDFS 守护进程的功能
  • 描述 Apache Hadoop 集群在数据存储和数据处理方面的正常操作。
  • 识别激励 Apache Hadoop 等系统的计算系统的当前特性。
  • 对 HDFS 设计的主要目标进行分类
  • 给定一个场景,确定 HDFS 联合的适当用例
  • 识别 HDFS HA-Quorum 群集的组件和守护程序
  • 分析 HDFS 安全性 (Kerberos) 的作用
  • 确定给定方案的最佳数据序列化选项
  • 描述文件读写路径
  • 识别用于操作 Hadoop 文件系统 Shell 中的文件的命令

2:YARN 和 MapReduce 版本 2 (MRv2) (17%)

  • 了解将群集从 Hadoop 1 升级到 Hadoop 2 如何影响群集设置
  • 了解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
  • 了解MapReduce v2(MRv2)的基本设计策略
  • 确定 YARN 如何处理资源分配
  • 确定在 YARN 上运行的 MapReduce 作业的工作流
  • 确定必须更改哪些文件以及如何将集群从 MapReduce 版本 1 (MRv1) 迁移到在 YARN 上运行的 MapReduce 版本 2 (MRv2)。

3: Hadoop 集群规划 (16%)

  • 在选择托管 Apache Hadoop 集群的硬件和操作系统时要考虑的主要因素。
  • 分析选择操作系统时的选择
  • 了解内核调优和磁盘交换
  • 给定方案和工作负载模式,确定适合该方案的硬件配置
  • 给定一个场景,确定集群需要运行的生态系统组件才能满足 SLA
  • 群集大小调整:给定方案和执行频率,确定工作负载的具体情况,包括 CPU、内存、存储、磁盘 I/O
  • 磁盘大小调整和配置,包括群集中的 JBOD 与 RAID、SAN、虚拟化和磁盘大小调整要求
  • 网络拓扑:了解 Hadoop 中的网络使用情况(适用于 HDFS 和 MapReduce),并针对给定场景提出或确定关键网络设计组件

4: Hadoop 群集安装和管理 (25%)

  • 给定一个场景,确定群集将如何处理磁盘和计算机故障
  • 分析日志记录配置和日志记录配置文件格式
  • 了解 Hadoop 指标和集群运行状况监控的基础知识
  • 确定用于群集监视的可用工具的功能和用途
  • 能够在 CDH 5 中安装所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
  • 确定用于管理 Apache Hadoop 文件系统的可用工具的功能和用途

5: 资源 Management (10%)

  • 了解每个 Hadoop 调度程序的总体设计目标
  • 给定一个场景,确定 FIFO 调度程序如何分配集群资源
  • 给定一个场景,确定 Fair Scheduler 如何在 YARN 下分配集群资源
  • 给定一个场景,确定容量计划程序如何分配群集资源

6: 监控和日志记录 (15%)

  • 了解 Hadoop 指标收集能力的功能和特点
  • 分析 NameNode 和 JobTracker Web UI
  • 了解如何监控集群守护程序
  • 识别和监控主节点上的 CPU 使用率
  • 描述如何监视所有节点上的交换和内存分配
  • 确定如何查看和管理 Hadoop 的日志文件
  • 解释日志文件

要求

  • 基本 Linux 管理技能
  • 基本编程技能
  35 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (3)

相关课程

课程分类