课程大纲

数据分析和Big Data简介

  • 什么使Big Data“大”?
    • 速度、体量、多样性、真实性(VVVV)
  • 传统数据处理的局限性
  • 分布式处理
  • 统计分析
  • 机器学习分析类型
  • 数据可视化

Big Data角色和职责

  • 管理员
  • 开发者
  • 数据分析师

用于数据分析的语言

  • R语言
    • 为什么选择R进行数据分析?
    • 数据操作、计算和图形展示
  • Python
    • 为什么选择Python进行数据分析?
    • 数据操作、处理、清理和计算

数据分析方法

  • 统计分析
    • 时间序列分析
    • 使用相关性和回归模型进行预测
    • 推断统计(估计)
    • 大数据集中的描述性统计(例如计算平均值)
  • 机器学习
    • 监督学习与非监督学习
    • 分类和聚类
    • 估算特定方法的成本
    • 过滤
  • 自然语言处理
    • 处理文本
    • 理解文本含义
    • 自动文本生成
    • 情感分析/主题分析
  • 计算机视觉
    • 获取、处理、分析和理解图像
    • 重建、解释和理解3D场景
    • 使用图像数据做出决策

Big Data基础设施

  • 数据存储
    • 关系型数据库(SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非关系型数据库(NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 理解各种数据库的细微差别
      • 层次数据库
      • 面向对象数据库
      • 面向文档数据库
      • 图数据库
      • 其他
  • 分布式处理
    • Hadoop
      • HDFS作为分布式文件系统
      • MapReduce用于分布式处理
    • Spark
      • 用于大规模数据处理的一体化内存集群计算框架
      • 结构化流处理
      • Spark SQL
      • 机器学习库:MLlib
      • 使用GraphX进行图处理
  • 可扩展性
    • 公有云
      • AWS、Google、阿里云等
    • 私有云
      • OpenStack、Cloud Foundry等
    • 自动扩展

为问题选择正确的解决方案

Big Data的未来

总结与下一步

要求

  • 对数学有基本了解
  • 对编程有基本了解
  • 对数据库有基本了解

受众

  • 开发者/程序员
  • IT顾问
 35 小时

客户评论 (7)

即将举行的公开课程

课程分类