课程大纲
介绍
- 项目团队采用的原因和方式 Hadoop
- 一切是如何开始的
- 项目经理在 Hadoop 项目中的角色
了解 Hadoop 的架构和关键概念
- HDFS的
- MapReduce的
- Hadoop 生态系统的其他部分
什么是 Big Data?
不同的存储方法 Big Data
HDFS(Hadoop 分布式文件系统)作为基础
如何处理 Big Data
- 分布式处理的力量
使用MapReduce处理数据
- 如何逐步挑选数据
聚类在大规模分布式处理中的作用
- 体系结构概述
- 聚类方法
使用 YARN 对数据和流程进行集群
非关系型Database在大数据存储中的作用
使用 Hadoop 的非关系数据库:HBase
数据仓库体系结构概述
使用 Hive 管理数据仓库
从 Shell-Scripts 运行 Hadoop
使用 Hadoop 流式处理
其他 Hadoop 工具和实用程序
开始 Hadoop 项目
- 揭开复杂性的神秘面纱
将现有项目迁移到 Hadoop
- 基础结构注意事项
- 超出分配的资源进行扩展
Hadoop 项目利益相关者及其工具包
- 开发人员、数据科学家、业务分析师和项目经理
Hadoop 作为新技术和新方法的基础
闭幕致辞
要求
- 对编程有大致的了解
- 对数据库的理解
- 基础知识 Linux
客户评论 (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
课程 - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
课程 - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay