感谢您的预订!我们的团队成员将会尽快与您取得联系。
感谢您的预订!我们的团队成员将会尽快与您取得联系。
课程大纲
1:HDFS (17%)
- 描述 HDFS 守护进程的功能
- 描述 Apache Hadoop 集群在数据存储和数据处理方面的正常操作。
- 识别激励 Apache Hadoop 等系统的计算系统的当前特性。
- 对 HDFS 设计的主要目标进行分类
- 给定一个场景,确定 HDFS 联合的适当用例
- 识别 HDFS HA-Quorum 群集的组件和守护程序
- 分析 HDFS 安全性 (Kerberos) 的作用
- 确定给定方案的最佳数据序列化选项
- 描述文件读写路径
- 识别用于操作 Hadoop 文件系统 Shell 中的文件的命令
2:YARN 和 MapReduce 版本 2 (MRv2) (17%)
- 了解将群集从 Hadoop 1 升级到 Hadoop 2 如何影响群集设置
- 了解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
- 了解MapReduce v2(MRv2)的基本设计策略
- 确定 YARN 如何处理资源分配
- 确定在 YARN 上运行的 MapReduce 作业的工作流
- 确定必须更改哪些文件以及如何将集群从 MapReduce 版本 1 (MRv1) 迁移到在 YARN 上运行的 MapReduce 版本 2 (MRv2)。
3: Hadoop 集群规划 (16%)
- 在选择托管 Apache Hadoop 集群的硬件和操作系统时要考虑的主要因素。
- 分析选择操作系统时的选择
- 了解内核调优和磁盘交换
- 给定方案和工作负载模式,确定适合该方案的硬件配置
- 给定一个场景,确定集群需要运行的生态系统组件才能满足 SLA
- 群集大小调整:给定方案和执行频率,确定工作负载的具体情况,包括 CPU、内存、存储、磁盘 I/O
- 磁盘大小调整和配置,包括群集中的 JBOD 与 RAID、SAN、虚拟化和磁盘大小调整要求
- 网络拓扑:了解 Hadoop 中的网络使用情况(适用于 HDFS 和 MapReduce),并针对给定场景提出或确定关键网络设计组件
4: Hadoop 群集安装和管理 (25%)
- 给定一个场景,确定群集将如何处理磁盘和计算机故障
- 分析日志记录配置和日志记录配置文件格式
- 了解 Hadoop 指标和集群运行状况监控的基础知识
- 确定用于群集监视的可用工具的功能和用途
- 能够在 CDH 5 中安装所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
- 确定用于管理 Apache Hadoop 文件系统的可用工具的功能和用途
5: 资源 Management (10%)
- 了解每个 Hadoop 调度程序的总体设计目标
- 给定一个场景,确定 FIFO 调度程序如何分配集群资源
- 给定一个场景,确定 Fair Scheduler 如何在 YARN 下分配集群资源
- 给定一个场景,确定容量计划程序如何分配群集资源
6: 监控和日志记录 (15%)
- 了解 Hadoop 指标收集能力的功能和特点
- 分析 NameNode 和 JobTracker Web UI
- 了解如何监控集群守护程序
- 识别和监控主节点上的 CPU 使用率
- 描述如何监视所有节点上的交换和内存分配
- 确定如何查看和管理 Hadoop 的日志文件
- 解释日志文件
要求
- 基本 Linux 管理技能
- 基本编程技能
35 小时
客户评论 (3)
Many hands-on sessions.
Jacek Pieczątka
课程 - Administrator Training for Apache Hadoop
Big competences of Trainer
Grzegorz Gorski
课程 - Administrator Training for Apache Hadoop
Trainer give reallive Examples