课程大纲

Machine Learning 简介

  • 机器学习的类型 – 监督式与非监督式
  • 从统计学习到机器学习
  • 数据挖掘工作流程:业务理解、数据准备、建模、部署
  • 为任务选择合适的算法
  • 过拟合与偏差-方差权衡

Python 与 ML 库概述

  • 为何使用程式语言进行机器学习
  • 在 R 和 Python 之间选择
  • Python 速成课程与 Jupyter Notebooks
  • Python 库:pandas、NumPy、scikit-learn、matplotlib、seaborn

测试与评估 ML 算法

  • 泛化、过拟合与模型验证
  • 评估策略:保留法、交叉验证、自助法
  • 回归指标:ME、MSE、RMSE、MAPE
  • 分类指标:准确率、混淆矩阵、不平衡类别
  • 模型性能可视化:利润曲线、ROC 曲线、提升曲线
  • 模型选择与网格搜索调参

数据准备

  • Python 中的数据导入与存储
  • 探索性分析与摘要统计
  • 处理缺失值与异常值
  • 标准化、正规化与转换
  • 定性数据重新编码与使用 pandas 进行数据整理

分类算法

  • 二分类与多分类
  • 逻辑回归与判别函数
  • 朴素贝叶斯、k-近邻
  • 决策树:CART、Random Forests、Bagging、Boosting、XGBoost
  • 支持向量机与核函数
  • 集成学习技术

回归与数值预测

  • 最小二乘法与变量选择
  • 正则化方法:L1、L2
  • 多项式回归与非线性模型
  • 回归树与样条

Unsupervised Learning

  • 聚类技术:k-means、k-medoids、层次聚类、SOMs
  • 降维:PCA、因子分析、SVD
  • 多维尺度分析

文本挖掘

  • 文本预处理与分词
  • 词袋模型、词干提取与词形还原
  • 情感分析与词频分析
  • 使用词云可视化文本数据

推荐系统

  • 基于用户与基于项目的协同过滤
  • 设计与评估推荐引擎

关联模式挖掘

  • 频繁项集与 Apriori 算法
  • 市场篮子分析与提升比

异常检测

  • 极值分析
  • 基于距离与基于密度的方法
  • 高维数据中的异常检测

Machine Learning 案例研究

  • 理解业务问题
  • 数据预处理与特征工程
  • 模型选择与参数调优
  • 评估与结果展示
  • 部署

总结与下一步

要求

  • 具备统计学和线性代数的基本知识
  • 熟悉数据分析或商业智能概念
  • 建议有程式设计经验(最好是Python或R)
  • 对学习应用机器学习于数据驱动项目感兴趣

目标受众

  • 数据分析师和科学家
  • 统计学家和研究专业人员
  • 探索机器学习工具的开发人员和IT专业人员
  • 参与数据科学或预测分析项目的任何人
 21 小时

客户评论 (3)

即将举行的公开课程

课程分类