感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
1: HDFS (17%)
- 描述HDFS守护进程的功能
- 描述Apache Hadoop集群在数据存储和数据处理中的正常操作
- 识别当前计算系统的特性,这些特性促使了像Apache Hadoop这样的系统的出现
- 分类HDFS设计的主要目标
- 在给定场景中,识别HDFS Federation的合适用例
- 识别HDFS HA-Quorum集群的组件和守护进程
- 分析HDFS安全性(Kerberos)的作用
- 在给定场景中,确定最佳的数据序列化选择
- 描述文件的读取和写入路径
- 识别在Hadoop文件系统Shell中操作文件的命令
2: YARN和MapReduce版本2 (MRv2) (17%)
- 理解将集群从Hadoop 1升级到Hadoop 2如何影响集群设置
- 理解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
- 理解MapReduce v2 (MRv2)的基本设计策略
- 确定YARN如何处理资源分配
- 识别在YARN上运行的MapReduce作业的工作流程
- 确定为了将集群从MapReduce版本1 (MRv1)迁移到运行在YARN上的MapReduce版本2 (MRv2),必须更改哪些文件以及如何更改
3: Hadoop集群规划 (16%)
- 选择硬件和操作系统以托管Apache Hadoop集群时需要考虑的主要点
- 分析选择操作系统时的选项
- 理解内核调优和磁盘交换
- 在给定场景和工作负载模式下,识别适合该场景的硬件配置
- 在给定场景中,确定集群需要运行的生态系统组件以满足SLA
- 集群规模:在给定场景和执行频率下,识别工作负载的具体需求,包括CPU、内存、存储、磁盘I/O
- 磁盘大小和配置,包括JBOD与RAID、SANs、虚拟化以及集群中的磁盘大小要求
- 网络拓扑:理解Hadoop中的网络使用情况(包括HDFS和MapReduce),并在给定场景中提出或识别关键的网络设计组件
4: Hadoop集群安装与管理 (25%)
- 在给定场景中,识别集群如何处理磁盘和机器故障
- 分析日志配置和日志配置文件格式
- 理解Hadoop指标和集群健康监控的基础知识
- 识别可用工具的功能和用途,用于集群监控
- 能够安装CDH 5中的所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive和Pig
- 识别用于管理Apache Hadoop文件系统的可用工具的功能和用途
5: 资源Management (10%)
- 理解每个Hadoop调度器的整体设计目标
- 在给定场景中,确定FIFO调度器如何分配集群资源
- 在给定场景中,确定Fair调度器如何在YARN下分配集群资源
- 在给定场景中,确定Capacity调度器如何分配集群资源
6: 监控与日志 (15%)
- 理解Hadoop的指标收集功能及其特性
- 分析NameNode和JobTracker的Web UI
- 理解如何监控集群守护进程
- 识别并监控主节点的CPU使用情况
- 描述如何监控所有节点的交换和内存分配
- 识别如何查看和管理Hadoop的日志文件
- 解释日志文件
要求
- 基本的Linux管理技能
- 基本编程技能
35 小时
客户评论 (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
课程 - Administrator Training for Apache Hadoop
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
课程 - Administrator Training for Apache Hadoop
I mostly liked the trainer giving real live Examples.