课程大纲
-
机器学习简介
机器学习的类型——监督学习与无监督学习
从统计学习到机器学习
数据挖掘工作流:
业务理解
数据理解
数据准备
造型
评估
部署
机器学习算法
为问题选择适当的算法
ML 中的过拟合和偏差-方差权衡
ML 库和编程语言
为什么要使用编程语言
在 R 和 Python 之间进行选择
Python 速成班
Python 资源
用于机器学习的 Python 库
Jupyter 笔记本和交互式编码
测试 ML 算法
泛化和过拟合
避免过拟合
Holdout 方法
交叉验证
引导
评估数值预测
精度测量:ME、MSE、RMSE、MAPE
参数和预测稳定性
评估分类算法
准确性及其问题
混淆矩阵
班级不平衡问题
可视化模型性能
利润曲线
ROC曲线
提升曲线
选型
模型调优 - 网格搜索策略
Python 中的示例
数据准备
数据导入和存储
了解数据 - 基本探索
使用 pandas 库进行数据操作
数据转换 – 数据整理
探索性分析
缺失观测值 – 检测和解决方案
异常值 – 检测和策略
标准化、规范化、二值化
定性数据重新编码
Python 中的示例
分类
二元类与多类分类
通过数学函数进行分类
线性判别函数
二次判别函数
Logistic回归和概率方法
k 最近邻
朴素贝叶斯
决策树
车
装袋
Random Forest秒
提高
Xgboost的
支持向量机和内核
最大边距分类器
支持向量机
集成学习
Python 中的示例
回归和数值预测
最小二乘估计
变量选择技术
正则化和稳定性 - L1、L2
非线性和广义最小二乘法
多项式回归
回归样条曲线
回归树
Python 中的示例
无监督学习
聚类
基于质心的聚类 – k-means、k-medoids、PAM、CLARA
分层聚类 – Diana, Agnes
基于模型的聚类 - EM
自组织地图
集群评估和评估
降维
主成分分析和因子分析
奇异值分解
多维扩展
Python 中的示例
文本挖掘
预处理数据
词袋模型
词干提取和词形还原
分析词频
情绪分析
创建词云
Python 中的示例
推荐引擎和协同过滤
推荐数据
基于用户的协同过滤
基于项目的协同筛选
Python 中的示例
关联模式挖掘
频繁项集算法
市场篮子分析
Python 中的示例
异常值分析
极值分析
基于距离的异常值检测
基于密度的方法
高维异常值检测
Python 中的示例
机器学习案例研究
业务问题理解
数据预处理
算法选择和调优
对结果的评价
部署
要求
对 Machine Learning 基础知识的知识和认识
客户评论 (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
课程 - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
课程 - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback