课程大纲

大数据分析的数据科学导论

  • 数据科学概述
  • 大数据概述
  • 数据结构
  • 大数据的驱动因素与复杂性
  • 大数据生态系统及新的分析方法
  • 大数据中的关键技术
  • 数据挖掘过程与问题
    • 关联模式挖掘
    • 数据聚类
    • 异常检测
    • 数据分类

数据分析生命周期导论

  • 发现
  • 数据准备
  • 模型规划
  • 模型构建
  • 结果展示/沟通
  • 操作化
  • 练习:案例研究

从这一点开始,大部分培训时间(80%)将用于R及相关大数据技术的示例和练习。

R入门

  • 安装R和Rstudio
  • R语言特性
  • R中的对象
  • R中的数据
  • 数据操作
  • 大数据问题
  • 练习

Hadoop入门

  • 安装Hadoop
  • 理解Hadoop模式
  • HDFS
  • MapReduce架构
  • Hadoop相关项目概述
  • 在Hadoop MapReduce中编写程序
  • 练习

使用RHadoop集成R和Hadoop

  • RHadoop的组件
  • 安装RHadoop并连接Hadoop
  • RHadoop的架构
  • 使用R进行Hadoop流处理
  • 使用RHadoop解决数据分析问题
  • 练习

数据预处理与准备

  • 数据准备步骤
  • 特征提取
  • 数据清洗
  • 数据集成与转换
  • 数据缩减——采样、特征子集选择
  • 降维
  • 离散化与分箱
  • 练习与案例研究

R中的探索性数据分析方法

  • 描述性统计
  • 探索性数据分析
  • 可视化——初步步骤
  • 单变量可视化
  • 多变量检查
  • 统计评估方法
  • 假设检验
  • 练习与案例研究

数据可视化

  • R中的基本可视化
  • 数据可视化包:ggplot2、lattice、plotly、lattice
  • 在R中格式化图表
  • 高级图表
  • 练习

回归(预测未来值)

  • 线性回归
  • 用例
  • 模型描述
  • 诊断
  • 线性回归问题
  • 收缩方法、岭回归、Lasso
  • 泛化与非线性
  • 回归样条
  • 局部多项式回归
  • 广义加性模型
  • 使用RHadoop进行回归
  • 练习与案例研究

分类

  • 分类相关问题
  • 贝叶斯复习
  • 朴素贝叶斯
  • 逻辑回归
  • K近邻
  • 决策树算法
  • 神经网络
  • 支持向量机
  • 分类器诊断
  • 分类方法比较
  • 可扩展分类算法
  • 练习与案例研究

模型性能评估与选择

  • 偏差、方差与模型复杂性
  • 准确性与可解释性
  • 评估分类器
  • 模型/算法性能指标
  • 保留法验证
  • 交叉验证
  • 使用caret包调优机器学习算法
  • 使用利润ROC和提升曲线可视化模型性能

集成方法

  • Bagging
  • 随机森林
  • Boosting
  • 梯度提升
  • 练习与案例研究

支持向量机用于分类与回归

  • 最大间隔分类器
    • 支持向量分类器
    • 支持向量机
    • 用于分类问题的SVM
    • 用于回归问题的SVM
  • 练习与案例研究

识别数据集中的未知分组

  • 聚类中的特征选择
  • 基于代表的算法:k-means、k-medoids
  • 层次算法:凝聚与分裂方法
  • 基于概率的算法:EM
  • 基于密度的算法:DBSCAN、DENCLUE
  • 聚类验证
  • 高级聚类概念
  • 使用RHadoop进行聚类
  • 练习与案例研究

使用链接分析发现关联

  • 链接分析概念
  • 网络分析指标
  • PageRank算法
  • 超链接诱导主题搜索
  • 链接预测
  • 练习与案例研究

关联模式挖掘

  • 频繁模式挖掘模型
  • 频繁模式挖掘中的可扩展性问题
  • 暴力算法
  • Apriori算法
  • FP增长方法
  • 候选规则评估
  • 关联规则应用
  • 验证与测试
  • 诊断
  • 使用R和Hadoop进行关联规则
  • 练习与案例研究

构建推荐引擎

  • 理解推荐系统
  • 推荐系统中使用的数据挖掘技术
  • 使用recommenderlab包的推荐系统
  • 评估推荐系统
  • 使用RHadoop进行推荐
  • 练习:构建推荐引擎

文本分析

  • 文本分析步骤
  • 收集原始文本
  • 词袋模型
  • 词频-逆文档频率
  • 情感分析
  • 练习与案例研究
 35 小时

客户评论 (2)

即将举行的公开课程

课程分类