课程大纲

  • 介绍
  • Hadoop 历史、概念
  • 生态系统
  • 分布
  • 高级体系结构
  • Hadoop 神话
  • Hadoop 挑战(硬件/软件)
  • 实验室:讨论您的大数据项目和问题
规划和安装 选择软件,Hadoop 发行版 调整群集大小,规划增长 选择硬件和网络 机架拓扑 安装 多租户 目录结构、日志 标杆 实验室:群集安装、运行性能基准测试
  • HDFS 操作
  • 概念(水平扩展、复制、数据局部性、机架感知)
  • 节点和守护进程(NameNode、辅助 NameNode、HA 备用 NameNode、DataNode)
  • 运行状况监视
  • 基于命令行和浏览器的管理
  • 添加存储,更换有缺陷的驱动器
  • 实验:熟悉 HDFS 命令行
数据引入 用于将日志和其他数据引入 HDFS 的 Flume Sqoop 用于从 SQL 数据库导入到 HDFS,以及导出回 SQL 使用 Hive 的 Hadoop 数据仓库 在群集之间复制数据 (distcp) 使用 S3 作为 HDFS 的补充 数据引入最佳实践和体系结构 实验室:设置和使用 Flume,与 Sqoop 相同
  • MapReduce操作和管理
  • mapreduce之前的并行计算:比较HPC与Hadoop管理
  • MapReduce集群负载
  • 节点和守护程序(JobTracker、TaskTracker)
  • MapReduce UI演练
  • Mapreduce配置
  • 作业配置
  • 优化MapReduce
  • 万无一失的MR:对程序员说些什么
  • 实验:运行MapReduce示例
YARN:新架构和新功能 YARN 设计目标和实现体系结构 新参与者:ResourceManager、NodeManager、Application Master 安装 YARN YARN 下的作业调度 实验室:调查作业计划
  • 高级主题
  • 硬件监控
  • 集群监控
  • 添加和删除服务器,升级 Hadoop
  • 备份、恢复和业务连续性规划
  • Oozie 作业工作流
  • Hadoop 高可用性 (HA)
  • Hadoop 联邦
  • 使用 Kerberos 保护群集
  • 实验室:设置监视
可选轨道 Cloudera Manager 用于集群管理、监控和日常任务;安装、使用。在本系列中,所有练习和实验都在 Cloudera 分发环境 (CDH5) 中执行 Ambari 用于群集管理、监视和日常任务;安装、使用。在本系列中,所有练习和实验都在 Ambari 群集管理器和 Hortonworks 数据平台 (HDP 2.0) 中执行

要求

  • 熟悉基本的 Linux 系统管理
  • 基本脚本编写技能

Hadoop 和分布式计算的知识不是必需的,但将在课程中介绍和解释。

实验室环境

零安装:无需在学生机器上安装hadoop软件!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • SSH 客户端(Linux 和 Mac 已经有 ssh 客户端,对于 Windows ,建议使用 Putty )
  • 用于访问群集的浏览器。我们建议 安装有 FoxyProxy扩展的 Firefox浏览器 
  21 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (3)

相关课程

课程分类