课程大纲

介绍

    Data Science 过程 数据科学家的角色和职责

准备开发环境

    库、框架、语言和工具 本地开发 基于 Web 的协作式开发

数据采集

    不同类型的数据 结构  本地数据库 数据库连接器 常见格式:xlxs、XML、Json、csv、...
非结构化 我不是 10 年前的 2015-20
  • 蜜蜂属
  • Internet of Things (IoT)
  • 文档、图片、视频、声音
  • 案例研究:持续收集大量非结构化数据
  • 数据存储 关系数据库 非关系型数据库 Hadoop:分布式文件系统 (HDFS) Spark:弹性分布式数据集 (RDD) 云存储
  • 数据准备
  • 引入、选择、清理和转换 确保数据质量 - 正确性、意义性和安全性 异常报告

      Languages 用于制备、加工和分析

    R 语言 R 简介 数据操作、计算和图形显示

      Python Python 简介

    操作、处理、清理和处理数据

      数据分析
    探索性分析 基本统计 草稿可视化效果 了解数据 
  • 因果律
  • 功能和转换
  • Machine Learning 监督与未监督

      何时使用什么模型
    Natural Language Processing (NLP)
  • Data Visualization
  • 最佳实践 为正确的数据选择正确的图表 色板 将其提升到一个新的水平 仪表 板 交互式可视化
  • 用数据讲故事
  • 总结和结论
  • 要求

    • 对数据库概念的一般了解
    • 对统计学有基本的了解
     35 小时

    人数


    每位参与者的报价

    客户评论 (2)

    即将举行的公开课程

    课程分类