课程大纲
介绍
- 云计算和大数据解决方案简介
- Apache 概述 Hadoop 特性和体系结构
设置 Hadoop
- 规划 Hadoop 集群(本地、云等)
- 选择操作系统和 Hadoop 发行版
- 预配资源(硬件、网络等)
- 下载和安装软件
- 调整群集大小以实现灵活性
使用 HDFS
- 了解 Hadoop 分布式文件系统 (HDFS)
- HDFS命令参考概述
- 访问 HDFS
- 在HDFS上执行基本文件操作
- 使用 S3 作为 HDFS 的补充
MapReduce概述
- 了解MapReduce框架中的数据流
- 映射、随机播放、排序和减少
- 演示:计算最高工资
使用 YARN
- 了解 Hadoop 中的资源管理
- 使用 ResourceManager、NodeManager、Application Master
- 在 YARN 下调度作业
- 为大量节点和集群进行调度
- 演示:作业调度
将 Hadoop 与 Spark 集成
- 为 Spark 设置存储(HDFS、Amazon、S3、NoSQL 等)
- 了解弹性分布式数据集 (RDD)
- 创建 RDD
- 实现 RDD 转换
- 演示:实现电影标题的文本搜索程序
管理 Hadoop 集群
- 监控 Hadoop
- 保护 Hadoop 集群
- 添加和删除节点
- 运行性能基准
- 调整 Hadoop 群集以优化性能
- 备份、恢复和业务连续性规划
- 确保高可用性 (HA)
升级和迁移 Hadoop 集群
- 评估工作负载要求
- 升级 Hadoop
- 从本地迁移到云,反之亦然
- 从故障中恢复
故障 排除
总结和结论
要求
- 系统管理经验
- 具有 Linux 命令行的经验
- 对大数据概念的理解
观众
- 系统管理员
- 数据库管理员
客户评论 (7)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
课程 - Python and Spark for Big Data (PySpark)
很多实际的例子,处理同一问题的不同方法,有时还不那么明显的技巧如何改进当前的解决方案
Rafał - Nordea
课程 - Apache Spark MLlib
机器翻译
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
课程 - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
课程 - Data Analysis with Hive/HiveQL
Sufficient hands on, trainer is knowledgable
Chris Tan
课程 - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
课程 - Big Data Analytics in Health
Having hands on session / assignments