课程大纲

介绍

  • 了解数据准备在分析和机器学习中的重要性
  • 数据准备流程及其在数据生命周期中的作用
  • 探讨原始数据中的常见挑战及其对分析的影响

数据收集与获取

  • 数据来源:数据库、API、电子表格、文本文件等
  • 数据收集技术及确保数据质量的方法
  • 从多种来源收集数据

Data Cleaning 技术

  • 识别和处理缺失值、异常值和不一致性
  • 处理数据集中的重复数据和错误
  • 清理真实世界的数据集

数据转换与标准化

  • 数据规范化和标准化技术
  • 分类数据处理:编码、分箱和特征工程
  • 将原始数据转换为可用的格式

Data Integration 和聚合

  • 合并和组合来自不同来源的数据集
  • 解决数据冲突并对齐数据类型
  • 数据聚合和整合技术

Data Quality 保证

  • 确保数据质量和完整性的方法
  • 实施质量检查和验证程序
  • 数据质量保证的案例研究和实际应用

降维与特征选择

  • 了解降维的必要性
  • 主成分分析(PCA)、特征选择和降维策略
  • 实施降维技术

总结与下一步

要求

  • 对数据概念的基本理解

目标受众

  • 数据分析师
  • Database 管理员
  • IT专业人员
 14 小时

客户评论 (2)

即将举行的公开课程

课程分类