课程大纲
机器学习简介
- 机器学习的类型——监督学习与非监督学习
- 从统计学习到机器学习
- 数据挖掘流程:业务理解、数据准备、建模、部署
- 为任务选择合适的算法
- 过拟合与偏差-方差权衡
Python与机器学习库概述
- 为什么使用编程语言进行机器学习
- 在R和Python之间选择
- Python速成课程与Jupyter Notebooks
- Python库:pandas、NumPy、scikit-learn、matplotlib、seaborn
测试与评估机器学习算法
- 泛化、过拟合与模型验证
- 评估策略:保留法、交叉验证、自助法
- 回归评估指标:ME、MSE、RMSE、MAPE
- 分类评估指标:准确率、混淆矩阵、不平衡类别
- 模型性能可视化:利润曲线、ROC曲线、提升曲线
- 模型选择与网格搜索调优
数据准备
- 在Python中导入与存储数据
- 探索性分析与摘要统计
- 处理缺失值与异常值
- 标准化、归一化与转换
- 定性数据重编码与pandas数据整理
分类算法
- 二分类与多分类
- 逻辑回归与判别函数
- 朴素贝叶斯、k近邻
- 决策树:CART、随机森林、Bagging、Boosting、XGBoost
- 支持向量机与核函数
- 集成学习技术
回归与数值预测
- 最小二乘法与变量选择
- 正则化方法:L1、L2
- 多项式回归与非线性模型
- 回归树与样条
神经网络
- 神经网络与深度学习简介
- 激活函数、层与反向传播
- 多层感知机(MLP)
- 使用TensorFlow或PyTorch进行基本神经网络建模
- 用于分类与回归的神经网络
销售预测与预测分析
- 时间序列与基于回归的预测
- 处理季节性与趋势数据
- 使用机器学习技术构建销售预测模型
- 评估预测准确性与不确定性
- 结果的业务解释与沟通
无监督学习
- 聚类技术:k均值、k中心点、层次聚类、自组织映射(SOMs)
- 降维:主成分分析(PCA)、因子分析、奇异值分解(SVD)
- 多维尺度分析
文本挖掘
- 文本预处理与分词
- 词袋模型、词干提取与词形还原
- 情感分析与词频分析
- 使用词云可视化文本数据
推荐系统
- 基于用户与基于物品的协同过滤
- 设计与评估推荐引擎
关联模式挖掘
- 频繁项集与Apriori算法
- 购物篮分析与提升比
异常检测
- 极值分析
- 基于距离与基于密度的方法
- 高维数据中的异常检测
机器学习案例研究
- 理解业务问题
- 数据预处理与特征工程
- 模型选择与参数调优
- 评估与结果展示
- 部署
总结与下一步
要求
- 机器学习基本概念的知识,例如监督学习和无监督学习
- 熟悉Python编程(变量、循环、函数)
- 使用pandas或NumPy等库进行数据处理的经验会有帮助,但不是必需的
- 不需要有高级建模或神经网络的经验
受众
- 数据科学家
- 业务分析师
- 处理数据的软件工程师和技术专业人员
客户评论 (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
课程 - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.