课程大纲

  1. 大数据基础
    • 大数据及其在企业中的作用
    • 企业内大数据战略的发展阶段
    • 解释大数据整体方法的基本原理
    • 大数据平台所需的组件
    • 大数据存储解决方案
    • 传统技术的局限性
    • 数据库类型概述
    • 大数据的四个维度
  2. 大数据对业务的影响
    • 大数据的业务重要性
    • 提取有用数据的挑战
    • 将大数据与传统数据集成
  3. 大数据存储技术
    • 大数据技术概述
      • 数据存储模型
      • Hadoop
      • Hive
      • Cassandra
      • MongoDB
    • 选择合适的大数据技术
  4. 大数据处理
    • 从数据库中连接和提取数据
    • 转换和准备数据以进行处理
    • 使用Hadoop MapReduce处理分布式数据
    • 监控和执行Hadoop MapReduce作业
    • Hadoop分布式文件系统的构建模块
    • Mapreduce和Yarn
    • 使用Spark处理流数据
  5. 大数据分析工具和技术
    • 使用Pig Latin语言编程Hadoop
    • 使用Hive查询大数据
    • 使用Mahout进行数据挖掘
    • 可视化和报告工具
  6. 大数据在业务中的应用
    • 管理和确定大数据需求
    • 大数据的业务重要性
    • 为问题选择合适的大数据工具

数据仓库概念

  • 什么是数据仓库?
  • OLTP与数据仓库的区别
  • 数据采集
  • 数据提取
  • 数据转换
  • 数据加载
  • 数据集市
  • 依赖与独立数据集市
  • 数据库设计

ETL测试概念:

  • 简介
  • 软件开发生命周期
  • 测试方法
  • ETL测试工作流程
  • Data stage中的ETL测试职责

大数据基础

  • 大数据及其在企业中的作用
  • 企业内大数据战略的发展阶段
  • 解释大数据整体方法的基本原理
  • 大数据平台所需的组件
  • 大数据存储解决方案
  • 传统技术的局限性
  • 数据库类型概述

NoSQL数据库

Hadoop

Map Reduce

Apache Spark

要求

代表们应该对存储工具有一定的认识和经验,以及处理大型数据集的可怕经验

 14 小时

客户评论 (1)

即将举行的公开课程

课程分类