课程大纲

Machine Learning 介绍

  • 机器学习的类型 – 监督式与非监督式
  • 从统计学习到机器学习
  • 数据挖掘的工作流程:业务理解、数据准备、建模、部署
  • 为任务选择合适的算法
  • 过拟合与偏差-方差权衡

Python 和 ML 函式库概述

  • 为何使用程式语言进行机器学习
  • 在 R 和 Python 之间选择
  • Python 速成课程与 Jupyter Notebooks
  • Python 函式库:pandas、NumPy、scikit-learn、matplotlib、seaborn

测试与评估机器学习算法

  • 泛化、过拟合与模型验证
  • 评估策略:保留法、交叉验证、自助法
  • 回归的评估指标:ME、MSE、RMSE、MAPE
  • 分类的评估指标:准确率、混淆矩阵、不平衡类别
  • 模型性能可视化:利润曲线、ROC 曲线、提升曲线
  • 模型选择与网格搜索调参

数据准备

  • 在 Python 中导入与储存数据
  • 探索性分析与摘要统计
  • 处理缺失值与异常值
  • 标准化、正规化与转换
  • 定性数据重新编码与使用 pandas 进行数据整理

分类算法

  • 二元分类与多元分类
  • 逻辑回归与判别函数
  • 朴素贝叶斯、k-近邻
  • 决策树:CART、Random Forests、Bagging、Boosting、XGBoost
  • 支持向量机与核函数
  • 集成学习技术

回归与数值预测

  • 最小二乘法与变量选择
  • 正则化方法:L1、L2
  • 多项式回归与非线性模型
  • 回归树与样条

Neural Networks

  • 神经网络与深度学习介绍
  • 激活函数、层与反向传播
  • 多层感知器 (MLP)
  • 使用 TensorFlow 或 PyTorch 进行基本神经网络建模
  • 神经网络用于分类与回归

销售 Forecasting 与 Predictive Analytics

  • 时间序列与基于回归的预测
  • 处理季节性与趋势数据
  • 使用机器学习技术构建销售预测模型
  • 评估预测准确性与不确定性
  • Business 结果解释与沟通

Unsupervised Learning

  • 聚类技术:k-means、k-medoids、层次聚类、SOMs
  • 降维:PCA、因子分析、SVD
  • 多维尺度分析

文本挖掘

  • 文本预处理与分词
  • 词袋模型、词干提取与词形还原
  • 情感分析与词频分析
  • 使用词云可视化文本数据

推荐系统

  • 基于用户与基于项目的协同过滤
  • 设计与评估推荐引擎

关联模式挖掘

  • 频繁项集与 Apriori 算法
  • 市场篮子分析与提升比

异常检测

  • 极值分析
  • 基于距离与基于密度的方法
  • 高维数据中的异常检测

Machine Learning 案例研究

  • 理解业务问题
  • 数据预处理与特征工程
  • 模型选择与参数调优
  • 评估与结果展示
  • 部署

总结与下一步

要求

  • 具备机器学习的基本知识,例如监督式学习和非监督式学习
  • 熟悉Python编程(变量、循环、函数)
  • 有使用pandas或NumPy等库处理数据的经验会有帮助,但不是必须的
  • 不需要具备高级建模或神经网络的经验

目标受众

  • 数据科学家
  • Business分析师
  • 处理数据的软件工程师和技术专业人员
 28 小时

客户评论 (2)

即将举行的公开课程

课程分类