课程大纲

模块 1.Hadoop 简介

  • Hadoop 分布式文件系统 (HDFS)
  • 读取路径和写入路径
  • 管理文件系统元数据
  • Namenode 和 Datanode
  • Namenode 高可用性
  • Namenode 联合
  • 命令行工具
  • 了解 REST 支持

模块 2.MapReduce简介

  • 使用 Hadoop 分析数据
  • 映射和缩减模式
  • Java MapReduce的
  • 横向扩展
  • 数据流
  • 开发合路器函数
  • 运行分布式MapReduce作业

模块 3.规划 Hadoop 集群

  • 选择 Hadoop 的发行版和版本
  • 版本和功能
  • 硬件选型
  • 主站和工作器硬件选择
  • 群集大小调整
  • 操作系统选择和准备
  • 部署布局
  • 设置用户、组和权限
  • 磁盘配置
  • 网络设计

模块 4.安装和配置

  • 安装 Hadoop
  • 配置:概述
  • Hadoop XML 配置文件
  • 环境变量和 Shell 脚本
  • 日志记录配置
  • 管理 HDFS
  • 优化和调优
  • 格式化 Namenode
  • 创建 /tmp 目录
  • 思考 Namenode 高可用性
  • 击剑选项
  • 自动故障转移配置
  • 格式化和引导名称节点
  • Namenode 联合

模块 5.了解 Hadoop I/O

  • HDFS中的数据完整性
  • 了解编解码器
  • 压缩和输入拆分
  • 在MapReduce中使用压缩
  • 序列化机制
  • 基于文件的数据结构
  • SequenceFile 格式
  • 其他文件格式和面向列的格式

模块 6.开发MapReduce应用程序

  • 配置 API
  • 设置开发环境
  • 管理配置
  • GenericOptionsParser、Tool 和 ToolRunner
  • 使用 MRUnit 编写单元测试
  • 映射器和化简器
  • 在测试数据上本地运行
  • 测试驱动程序
  • 在集群上运行
  • 打包和启动作业
  • The MapReduce Web UI
  • 调整作业

模块 7.身份、身份验证和授权

  • 管理身份
  • Kerberos 和 Hadoop
  • 了解授权

模块 8.资源 Management

  • 什么是资源 Management?
  • HDFS 配额
  • MapReduce调度程序
  • YARN 应用程序运行剖析
  • 资源请求
  • 应用程序生命周期
  • YARN 与 MapReduce 1 的比较
  • 在 YARN 中调度
  • 调度程序选项
  • 容量计划程序配置
  • 公平的调度程序配置
  • 延迟调度
  • 主导资源公平性

模块 9.MapReduce类型和格式

  • MapReduce 类型
  • 默认的MapReduce作业
  • 定义输入格式
  • 管理输入拆分和记录
  • 文本输入和二进制输入
  • 管理多个输入
  • Database 输入(和输出)
  • 输出格式
  • 文本输出和二进制输出
  • 管理多个输出
  • Database 输出

模块 10.使用MapReduce功能

  • 使用计数器
  • 读取内置计数器
  • 用户定义的 Java 计数器
  • 了解排序
  • 使用分布式缓存

模块 11.集群维护和故障排除

  • 管理 Hadoop 进程
  • 使用 Init 脚本启动和停止进程
  • 手动启动和停止进程
  • HDFS 维护任务
  • 添加数据节点
  • 停用数据节点
  • 使用 fsck 检查文件系统完整性
  • 平衡HDFS块数据
  • 处理故障磁盘
  • MapReduce维护任务
  • 终止MapReduce作业
  • 终止MapReduce任务
  • 管理资源耗尽

模块 12.监测

  • 可用的 Hadoop 指标
  • SNMP的作用
  • 健康监测
  • 主机级检查
  • HDFS 检查
  • MapReduce检查

模块 13.备份和恢复

  • 数据备份
  • 分布式复制 (distcp)Distributed Copy (distcp)
  • 并行数据引入
  • Namenode 元数据
 21 小时

人数



每位参与者的报价

客户评论 (1)

相关课程

课程分类