课程大纲

介绍

  • 了解数据准备在分析和机器学习中的重要性
  • 数据准备管道及其在数据生命周期中的作用
  • 探索原始数据中的常见挑战及其对分析的影响

数据收集和获取

  • 数据源:数据库、API、电子表格、文本文件等
  • 收集数据和确保收集过程中数据质量的技术
  • 从各种来源收集数据

Data Cleaning 技术

  • 识别和处理缺失值、异常值和不一致
  • 处理数据集中的重复项和错误
  • 清理真实世界的数据集

数据转换和标准化

  • 数据规范化和标准化技术
  • 分类数据处理:编码、分箱和特征工程
  • 将原始数据转换为可用格式

Data Integration 和聚合

  • 合并和组合来自不同来源的数据集
  • 解决数据冲突并调整数据类型
  • 数据聚合和整合技术

Data Quality 保险

  • 在整个过程中确保数据质量和完整性的方法
  • 实施质量检查和验证程序
  • 数据质量保证的案例研究和实际应用

降维和特征选择

  • 了解降维的必要性
  • PCA、特征选择和约简策略等技术
  • 实施降维技术

摘要和后续步骤

要求

    基本了解数据概念

观众

    数据分析师 Database 管理员 IT 专业人员
 14 小时

人数



每位参与者的报价

客户评论 (2)

相关课程

课程分类