Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
模块 1.Hadoop 简介
- Hadoop 分布式文件系统 (HDFS)
- 读取路径和写入路径
- 管理文件系统元数据
- Namenode 和 Datanode
- Namenode 高可用性
- Namenode 联合
- 命令行工具
- 了解 REST 支持
模块 2.MapReduce简介
- 使用 Hadoop 分析数据
- 映射和缩减模式
- Java MapReduce的
- 横向扩展
- 数据流
- 开发合路器函数
- 运行分布式MapReduce作业
模块 3.规划 Hadoop 集群
- 选择 Hadoop 的发行版和版本
- 版本和功能
- 硬件选型
- 主站和工作器硬件选择
- 群集大小调整
- 操作系统选择和准备
- 部署布局
- 设置用户、组和权限
- 磁盘配置
- 网络设计
模块 4.安装和配置
- 安装 Hadoop
- 配置:概述
- Hadoop XML 配置文件
- 环境变量和 Shell 脚本
- 日志记录配置
- 管理 HDFS
- 优化和调优
- 格式化 Namenode
- 创建 /tmp 目录
- 思考 Namenode 高可用性
- 击剑选项
- 自动故障转移配置
- 格式化和引导名称节点
- Namenode 联合
模块 5.了解 Hadoop I/O
- HDFS中的数据完整性
- 了解编解码器
- 压缩和输入拆分
- 在MapReduce中使用压缩
- 序列化机制
- 基于文件的数据结构
- SequenceFile 格式
- 其他文件格式和面向列的格式
模块 6.开发MapReduce应用程序
- 配置 API
- 设置开发环境
- 管理配置
- GenericOptionsParser、Tool 和 ToolRunner
- 使用 MRUnit 编写单元测试
- 映射器和化简器
- 在测试数据上本地运行
- 测试驱动程序
- 在集群上运行
- 打包和启动作业
- The MapReduce Web UI
- 调整作业
模块 7.身份、身份验证和授权
- 管理身份
- Kerberos 和 Hadoop
- 了解授权
模块 8.资源 Management
- 什么是资源 Management?
- HDFS 配额
- MapReduce调度程序
- YARN 应用程序运行剖析
- 资源请求
- 应用程序生命周期
- YARN 与 MapReduce 1 的比较
- 在 YARN 中调度
- 调度程序选项
- 容量计划程序配置
- 公平的调度程序配置
- 延迟调度
- 主导资源公平性
模块 9.MapReduce类型和格式
- MapReduce 类型
- 默认的MapReduce作业
- 定义输入格式
- 管理输入拆分和记录
- 文本输入和二进制输入
- 管理多个输入
- Database 输入(和输出)
- 输出格式
- 文本输出和二进制输出
- 管理多个输出
- Database 输出
模块 10.使用MapReduce功能
- 使用计数器
- 读取内置计数器
- 用户定义的 Java 计数器
- 了解排序
- 使用分布式缓存
模块 11.集群维护和故障排除
- 管理 Hadoop 进程
- 使用 Init 脚本启动和停止进程
- 手动启动和停止进程
- HDFS 维护任务
- 添加数据节点
- 停用数据节点
- 使用 fsck 检查文件系统完整性
- 平衡HDFS块数据
- 处理故障磁盘
- MapReduce维护任务
- 终止MapReduce作业
- 终止MapReduce任务
- 管理资源耗尽
模块 12.监测
- 可用的 Hadoop 指标
- SNMP的作用
- 健康监测
- 主机级检查
- HDFS 检查
- MapReduce检查
模块 13.备份和恢复
- 数据备份
- 分布式复制 (distcp)Distributed Copy (distcp)
- 并行数据引入
- Namenode 元数据
21 小时
客户评论 (1)
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.