Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
1:HDFS (17%)
- 描述 HDFS 守护进程的功能
- 描述 Apache Hadoop 集群在数据存储和数据处理方面的正常操作。
- 识别激励 Apache Hadoop 等系统的计算系统的当前特性。
- 对 HDFS 设计的主要目标进行分类
- 给定一个场景,确定 HDFS 联合的适当用例
- 识别 HDFS HA-Quorum 群集的组件和守护程序
- 分析 HDFS 安全性 (Kerberos) 的作用
- 确定给定方案的最佳数据序列化选项
- 描述文件读写路径
- 识别用于操作 Hadoop 文件系统 Shell 中的文件的命令
2:YARN 和 MapReduce 版本 2 (MRv2) (17%)
- 了解将群集从 Hadoop 1 升级到 Hadoop 2 如何影响群集设置
- 了解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
- 了解MapReduce v2(MRv2)的基本设计策略
- 确定 YARN 如何处理资源分配
- 确定在 YARN 上运行的 MapReduce 作业的工作流
- 确定必须更改哪些文件以及如何将集群从 MapReduce 版本 1 (MRv1) 迁移到在 YARN 上运行的 MapReduce 版本 2 (MRv2)。
3: Hadoop 集群规划 (16%)
- 在选择托管 Apache Hadoop 集群的硬件和操作系统时要考虑的主要因素。
- 分析选择操作系统时的选择
- 了解内核调优和磁盘交换
- 给定方案和工作负载模式,确定适合该方案的硬件配置
- 给定一个场景,确定集群需要运行的生态系统组件才能满足 SLA
- 群集大小调整:给定方案和执行频率,确定工作负载的具体情况,包括 CPU、内存、存储、磁盘 I/O
- 磁盘大小调整和配置,包括群集中的 JBOD 与 RAID、SAN、虚拟化和磁盘大小调整要求
- 网络拓扑:了解 Hadoop 中的网络使用情况(适用于 HDFS 和 MapReduce),并针对给定场景提出或确定关键网络设计组件
4: Hadoop 群集安装和管理 (25%)
- 给定一个场景,确定群集将如何处理磁盘和计算机故障
- 分析日志记录配置和日志记录配置文件格式
- 了解 Hadoop 指标和集群运行状况监控的基础知识
- 确定用于群集监视的可用工具的功能和用途
- 能够在 CDH 5 中安装所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
- 确定用于管理 Apache Hadoop 文件系统的可用工具的功能和用途
5: 资源 Management (10%)
- 了解每个 Hadoop 调度程序的总体设计目标
- 给定一个场景,确定 FIFO 调度程序如何分配集群资源
- 给定一个场景,确定 Fair Scheduler 如何在 YARN 下分配集群资源
- 给定一个场景,确定容量计划程序如何分配群集资源
6: 监控和日志记录 (15%)
- 了解 Hadoop 指标收集能力的功能和特点
- 分析 NameNode 和 JobTracker Web UI
- 了解如何监控集群守护程序
- 识别和监控主节点上的 CPU 使用率
- 描述如何监视所有节点上的交换和内存分配
- 确定如何查看和管理 Hadoop 的日志文件
- 解释日志文件
要求
- 基本 Linux 管理技能
- 基本编程技能
35 小时
客户评论 (3)
Many hands-on sessions.
Jacek Pieczątka
课程 - Administrator Training for Apache Hadoop
Big competences of Trainer
Grzegorz Gorski
课程 - Administrator Training for Apache Hadoop
Trainer give reallive Examples