课程大纲

介绍

  • 云计算和大数据解决方案简介
  • Apache 概述 Hadoop 特性和体系结构

设置 Hadoop

  • 规划 Hadoop 集群(本地、云等)
  • 选择操作系统和 Hadoop 发行版
  • 预配资源(硬件、网络等)
  • 下载和安装软件
  • 调整群集大小以实现灵活性

使用 HDFS

  • 了解 Hadoop 分布式文件系统 (HDFS)
  • HDFS命令参考概述
  • 访问 HDFS
  • 在HDFS上执行基本文件操作
  • 使用 S3 作为 HDFS 的补充

MapReduce概述

  • 了解MapReduce框架中的数据流
  • 映射、随机播放、排序和减少
  • 演示:计算最高工资

使用 YARN

  • 了解 Hadoop 中的资源管理
  • 使用 ResourceManager、NodeManager、Application Master
  • 在 YARN 下调度作业
  • 为大量节点和集群进行调度
  • 演示:作业调度

将 Hadoop 与 Spark 集成

  • 为 Spark 设置存储(HDFS、Amazon、S3、NoSQL 等)
  • 了解弹性分布式数据集 (RDD)
  • 创建 RDD
  • 实现 RDD 转换
  • 演示:实现电影标题的文本搜索程序

管理 Hadoop 集群

  • 监控 Hadoop
  • 保护 Hadoop 集群
  • 添加和删除节点
  • 运行性能基准
  • 调整 Hadoop 群集以优化性能
  • 备份、恢复和业务连续性规划
  • 确保高可用性 (HA)

升级和迁移 Hadoop 集群

  • 评估工作负载要求
  • 升级 Hadoop
  • 从本地迁移到云,反之亦然
  • 从故障中恢复

故障 排除

总结和结论

要求

  • 系统管理经验
  • 具有 Linux 命令行的经验
  • 对大数据概念的理解

观众

  • 系统管理员
  • 数据库管理员
 35 小时

人数



每位参与者的报价

客户评论 (7)

相关课程

课程分类