课程大纲

介绍

  • 数据科学流程
  • 数据科学家的角色和职责

准备开发环境

  • 库、框架、语言和工具
  • 本地开发
  • 基于网络的协作开发

数据收集

  • 不同类型的数据
    • 结构化
      • 本地数据库
      • 数据库连接器
      • 常见格式:xlxs, XML, Json, csv, ...
    • 非结构化
      • 点击、传感器、智能手机
      • APIs
      • 物联网 (IoT)
      • 文档、图片、视频、音频
  • 案例研究:持续收集大量非结构化数据

数据存储

  • 关系型数据库
  • 非关系型数据库
  • Hadoop: 分布式文件系统 (HDFS)
  • Spark: 弹性分布式数据集 (RDD)
  • 云存储

数据准备

  • 数据摄取、选择、清洗和转换
  • 确保数据质量 - 正确性、意义和安全性
  • 异常报告

用于准备、处理和分析的语言

  • R语言
    • R语言介绍
    • 数据操作、计算和图形展示
  • Python
    • Python介绍
    • 数据操作、处理、清洗和计算

数据分析

  • 探索性分析
    • 基本统计
    • 初步可视化
    • 理解数据
  • 因果关系
  • 特征和转换
  • 机器学习
    • 监督学习与非监督学习
    • 何时使用何种模型
  • 自然语言处理 (NLP)

数据可视化

  • 最佳实践
  • 为数据选择合适的图表
  • 调色板
  • 提升到更高水平
    • 仪表板
    • 交互式可视化
  • 用数据讲故事

总结与结论

要求

  • 对数据库概念的一般理解
  • 对统计学的基本理解
 35 小时

客户评论 (1)

即将举行的公开课程

课程分类