课程大纲
Machine Learning 简介
- 机器学习的类型 – 监督式与非监督式
- 从统计学习到机器学习
- 数据挖掘工作流程:业务理解、数据准备、建模、部署
- 为任务选择合适的算法
- 过拟合与偏差-方差权衡
Python 与 ML 库概述
- 为何使用程式语言进行机器学习
- 在 R 和 Python 之间选择
- Python 速成课程与 Jupyter Notebooks
- Python 库:pandas、NumPy、scikit-learn、matplotlib、seaborn
测试与评估 ML 算法
- 泛化、过拟合与模型验证
- 评估策略:保留法、交叉验证、自助法
- 回归指标:ME、MSE、RMSE、MAPE
- 分类指标:准确率、混淆矩阵、不平衡类别
- 模型性能可视化:利润曲线、ROC 曲线、提升曲线
- 模型选择与网格搜索调参
数据准备
- Python 中的数据导入与存储
- 探索性分析与摘要统计
- 处理缺失值与异常值
- 标准化、正规化与转换
- 定性数据重新编码与使用 pandas 进行数据整理
分类算法
- 二分类与多分类
- 逻辑回归与判别函数
- 朴素贝叶斯、k-近邻
- 决策树:CART、Random Forests、Bagging、Boosting、XGBoost
- 支持向量机与核函数
- 集成学习技术
回归与数值预测
- 最小二乘法与变量选择
- 正则化方法:L1、L2
- 多项式回归与非线性模型
- 回归树与样条
Unsupervised Learning
- 聚类技术:k-means、k-medoids、层次聚类、SOMs
- 降维:PCA、因子分析、SVD
- 多维尺度分析
文本挖掘
- 文本预处理与分词
- 词袋模型、词干提取与词形还原
- 情感分析与词频分析
- 使用词云可视化文本数据
推荐系统
- 基于用户与基于项目的协同过滤
- 设计与评估推荐引擎
关联模式挖掘
- 频繁项集与 Apriori 算法
- 市场篮子分析与提升比
异常检测
- 极值分析
- 基于距离与基于密度的方法
- 高维数据中的异常检测
Machine Learning 案例研究
- 理解业务问题
- 数据预处理与特征工程
- 模型选择与参数调优
- 评估与结果展示
- 部署
总结与下一步
要求
- 具备统计学和线性代数的基本知识
- 熟悉数据分析或商业智能概念
- 建议有程式设计经验(最好是Python或R)
- 对学习应用机器学习于数据驱动项目感兴趣
目标受众
- 数据分析师和科学家
- 统计学家和研究专业人员
- 探索机器学习工具的开发人员和IT专业人员
- 参与数据科学或预测分析项目的任何人
客户评论 (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
课程 - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
课程 - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback