课程大纲

机器学习简介

  • 机器学习的类型——监督学习与非监督学习
  • 从统计学习到机器学习
  • 数据挖掘流程:业务理解、数据准备、建模、部署
  • 为任务选择合适的算法
  • 过拟合与偏差-方差权衡

Python与机器学习库概述

  • 为什么使用编程语言进行机器学习
  • 在R和Python之间选择
  • Python速成课程与Jupyter Notebooks
  • Python库:pandas、NumPy、scikit-learn、matplotlib、seaborn

测试与评估机器学习算法

  • 泛化、过拟合与模型验证
  • 评估策略:保留法、交叉验证、自助法
  • 回归评估指标:ME、MSE、RMSE、MAPE
  • 分类评估指标:准确率、混淆矩阵、不平衡类别
  • 模型性能可视化:利润曲线、ROC曲线、提升曲线
  • 模型选择与网格搜索调优

数据准备

  • 在Python中导入与存储数据
  • 探索性分析与摘要统计
  • 处理缺失值与异常值
  • 标准化、归一化与转换
  • 定性数据重编码与pandas数据整理

分类算法

  • 二分类与多分类
  • 逻辑回归与判别函数
  • 朴素贝叶斯、k近邻
  • 决策树:CART、随机森林、Bagging、Boosting、XGBoost
  • 支持向量机与核函数
  • 集成学习技术

回归与数值预测

  • 最小二乘法与变量选择
  • 正则化方法:L1、L2
  • 多项式回归与非线性模型
  • 回归树与样条

神经网络

  • 神经网络与深度学习简介
  • 激活函数、层与反向传播
  • 多层感知机(MLP)
  • 使用TensorFlow或PyTorch进行基本神经网络建模
  • 用于分类与回归的神经网络

销售预测与预测分析

  • 时间序列与基于回归的预测
  • 处理季节性与趋势数据
  • 使用机器学习技术构建销售预测模型
  • 评估预测准确性与不确定性
  • 结果的业务解释与沟通

无监督学习

  • 聚类技术:k均值、k中心点、层次聚类、自组织映射(SOMs)
  • 降维:主成分分析(PCA)、因子分析、奇异值分解(SVD)
  • 多维尺度分析

文本挖掘

  • 文本预处理与分词
  • 词袋模型、词干提取与词形还原
  • 情感分析与词频分析
  • 使用词云可视化文本数据

推荐系统

  • 基于用户与基于物品的协同过滤
  • 设计与评估推荐引擎

关联模式挖掘

  • 频繁项集与Apriori算法
  • 购物篮分析与提升比

异常检测

  • 极值分析
  • 基于距离与基于密度的方法
  • 高维数据中的异常检测

机器学习案例研究

  • 理解业务问题
  • 数据预处理与特征工程
  • 模型选择与参数调优
  • 评估与结果展示
  • 部署

总结与下一步

要求

  • 机器学习基本概念的知识,例如监督学习和无监督学习
  • 熟悉Python编程(变量、循环、函数)
  • 使用pandas或NumPy等库进行数据处理的经验会有帮助,但不是必需的
  • 不需要有高级建模或神经网络的经验

受众

  • 数据科学家
  • 业务分析师
  • 处理数据的软件工程师和技术专业人员
 28 小时

客户评论 (2)

即将举行的公开课程

课程分类