感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
大数据分析的数据科学导论
- 数据科学概述
- 大数据概述
- 数据结构
- 大数据的驱动因素与复杂性
- 大数据生态系统及新的分析方法
- 大数据中的关键技术
- 数据挖掘过程与问题
- 关联模式挖掘
- 数据聚类
- 异常检测
- 数据分类
数据分析生命周期导论
- 发现
- 数据准备
- 模型规划
- 模型构建
- 结果展示/沟通
- 操作化
- 练习:案例研究
从这一点开始,大部分培训时间(80%)将用于R及相关大数据技术的示例和练习。
R入门
- 安装R和Rstudio
- R语言特性
- R中的对象
- R中的数据
- 数据操作
- 大数据问题
- 练习
Hadoop入门
- 安装Hadoop
- 理解Hadoop模式
- HDFS
- MapReduce架构
- Hadoop相关项目概述
- 在Hadoop MapReduce中编写程序
- 练习
使用RHadoop集成R和Hadoop
- RHadoop的组件
- 安装RHadoop并连接Hadoop
- RHadoop的架构
- 使用R进行Hadoop流处理
- 使用RHadoop解决数据分析问题
- 练习
数据预处理与准备
- 数据准备步骤
- 特征提取
- 数据清洗
- 数据集成与转换
- 数据缩减——采样、特征子集选择
- 降维
- 离散化与分箱
- 练习与案例研究
R中的探索性数据分析方法
- 描述性统计
- 探索性数据分析
- 可视化——初步步骤
- 单变量可视化
- 多变量检查
- 统计评估方法
- 假设检验
- 练习与案例研究
数据可视化
- R中的基本可视化
- 数据可视化包:ggplot2、lattice、plotly、lattice
- 在R中格式化图表
- 高级图表
- 练习
回归(预测未来值)
- 线性回归
- 用例
- 模型描述
- 诊断
- 线性回归问题
- 收缩方法、岭回归、Lasso
- 泛化与非线性
- 回归样条
- 局部多项式回归
- 广义加性模型
- 使用RHadoop进行回归
- 练习与案例研究
分类
- 分类相关问题
- 贝叶斯复习
- 朴素贝叶斯
- 逻辑回归
- K近邻
- 决策树算法
- 神经网络
- 支持向量机
- 分类器诊断
- 分类方法比较
- 可扩展分类算法
- 练习与案例研究
模型性能评估与选择
- 偏差、方差与模型复杂性
- 准确性与可解释性
- 评估分类器
- 模型/算法性能指标
- 保留法验证
- 交叉验证
- 使用caret包调优机器学习算法
- 使用利润ROC和提升曲线可视化模型性能
集成方法
- Bagging
- 随机森林
- Boosting
- 梯度提升
- 练习与案例研究
支持向量机用于分类与回归
- 最大间隔分类器
- 支持向量分类器
- 支持向量机
- 用于分类问题的SVM
- 用于回归问题的SVM
- 练习与案例研究
识别数据集中的未知分组
- 聚类中的特征选择
- 基于代表的算法:k-means、k-medoids
- 层次算法:凝聚与分裂方法
- 基于概率的算法:EM
- 基于密度的算法:DBSCAN、DENCLUE
- 聚类验证
- 高级聚类概念
- 使用RHadoop进行聚类
- 练习与案例研究
使用链接分析发现关联
- 链接分析概念
- 网络分析指标
- PageRank算法
- 超链接诱导主题搜索
- 链接预测
- 练习与案例研究
关联模式挖掘
- 频繁模式挖掘模型
- 频繁模式挖掘中的可扩展性问题
- 暴力算法
- Apriori算法
- FP增长方法
- 候选规则评估
- 关联规则应用
- 验证与测试
- 诊断
- 使用R和Hadoop进行关联规则
- 练习与案例研究
构建推荐引擎
- 理解推荐系统
- 推荐系统中使用的数据挖掘技术
- 使用recommenderlab包的推荐系统
- 评估推荐系统
- 使用RHadoop进行推荐
- 练习:构建推荐引擎
文本分析
- 文本分析步骤
- 收集原始文本
- 词袋模型
- 词频-逆文档频率
- 情感分析
- 练习与案例研究
35 小时
客户评论 (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
课程 - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.