课程大纲

介绍

  • Data Science 流程
  • 数据科学家的角色和职责

准备开发环境

  • 库、框架、语言和工具
  • 本地开发
  • 基于 Web 的协作式开发

数据采集

  • 不同类型的数据
    • 结构
      • 本地资料库
      • Database 连接器
      • 常见格式:xlxs、XML、Json、csv、...
    • 非结构化
      • 点击、审查、智能手机
      • 蜜蜂属
      • Internet of Things (IoT)
      • 文档、图片、视频、声音
  • 案例研究:持续收集大量非结构化数据

数据存储

  • 关系资料库
  • 非关系资料库
  • Hadoop:分散式文件系统 (HDFS)
  • Spark:弹性分散式资料集 (RDD)
  • 云存储

数据准备

  • 摄取、选择、清理和转换
  • 确保数据品质 - 正确性、意义和安全性
  • 异常报告

Languages 用于制备、加工和分析

  • R 语言
    • R 简介
    • 数据操作、计算和图形显示
  • Python
    • 介绍 Python
    • 操作、处理、清理和处理数据

数据分析

  • 探索性分析
    • 基本统计数据
    • 草稿可视化
    • 了解数据
  • 因果律
  • 功能和转换
  • Machine Learning
    • 受监督 vs 无监督
    • 何时使用什么型号
  • Natural Language Processing (NLP)

Data Visualization

  • 最佳实践
  • 为正确的数据选择正确的图表
  • 调色板
  • 更上一层楼
    • 仪表板
    • 互动式可视化
  • 用数据讲故事

总结和结论

要求

  • 对数据库概念的一般了解
  • 对统计学有基本的了解
 35 小时

客户评论 (3)

即将举行的公开课程

课程分类