课程大纲

数据分析和大数据简介

  • 大数据何以称为“大”?
    • 速度(Velocity)、体量(Volume)、种类(Variety)、准确度(Veracity)(VVVV)
  • 对传统数据处理的限制
  • 分布式处理
  • 统计分析
  • 机器学习分析的类型
  • 数据可视化

用于数据分析的语言

  • R语言
    • 为什么R用于数据分析?
    • 数据处理、计算、图形显示
  • Python
    • 为什么Python用于数据分析?
    • 操作、处理、清理、运算数据

数据分析的方法

  • 统计分析
    • 时间序列分析
    • 用相关和回归模型预测
    • 推论统计(估算)
    • 大数据集中的描述性统计(例如:计算平均数)
  • 机器学习
    • 监督与无监督学习
    • 分类和聚类
    • 估算具体方法的成本
    • 过滤
  • 自然语言处理
    • 处理文本
    • 理解文本的含义
    • 自动生成文本
    • 情感分析/主题分析
  • 计算机视觉
    • 获取、处理、分析、理解图像
    • 重建、解读、理解3D场景
    • 使用图像数据做出决定

大数据基础架构

  • 数据存储
    • 关系数据库(SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非关系数据库(NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 了解细微差别
      • 分层数据库
      • 面向对象的数据库
      • 面向文档的数据库
      • 面向图形的数据库
      • 其他
  • 分布式处理
    • Hadoop
      • HDFS作为分布式文件系统
      • MapReduce用于分布式处理
    • Spark
      • 用于大规模数据处理的一体化内存集群计算框架
      • 结构化数据流(structured streaming)
      • Spark SQL
      • 机器学习库:MLlib
      • 使用GraphX进行图形处理
  • 可扩展性
    • 公共云
      • AWS、Google、阿里云等
    • 私有云
      • OpenStack、Cloud Foundry等
    • 自动可扩展性
  • 针对问题选择正确的解决方案
  • 大数据的未来
  • 结束语

要求

  • 对数学有大体的了解
  • 对编程有大体的了解
  • 对数据库有大体的了解
 35 小时

人数



每位参与者的报价

客户评论 (5)

相关课程

课程分类