课程大纲

Data Science for Big Data Analytics 简介

    Data Science 概述 大数据概述 数据结构 大数据的驱动因素和复杂性 大数据生态系统和新的分析方法 大数据中的关键技术 数据挖掘过程和问题 关联模式挖掘 数据聚类 异常值检测 数据分类

数据分析生命周期简介

    发现 数据准备 模型规划 模型构建 结果的介绍/Communication 操作化 练习:案例研究

从这一点 开始,大部分培训时间(80%)将花在R和相关大数据技术的示例和练习上。

R 入门

    安装 R 和 Rstudio R 语言的功能 R 中的对象 R 中的数据 数据操作 大数据问题 习题

开始使用 Hadoop

    安装 Hadoop 了解 Hadoop 模式 HDFS的 MapReduce架构 Hadoop 相关项目概览 用Hadoop MapReduce编写程序 习题

将 R 和 Hadoop 与 RHadoop 集成

    R的组成部分Hadoop 安装 RHadoop 并连接 Hadoop R的架构Hadoop Hadoop 使用 R 进行流式处理 使用 R 解决数据分析问题Hadoop 习题

预处理和准备数据

    数据准备步骤 特征提取 数据清理 数据集成和转换 数据缩减 – 采样、特征子集选择、 降维 离散化和分档 练习和案例研究

R 中的探索性数据分析方法

    描述统计学 探索性数据分析 可视化 – 初步步骤 可视化单个变量 检查多个变量 评估的统计方法 假设检验 练习和案例研究

Data Visualization秒

    R 中的基本可视化效果 用于数据可视化的软件包 ggplot2, lattice, plotly, lattice 在 R 中设置绘图格式 高级图形 习题

回归(估计未来值)

    线性回归 使用案例 型号说明 诊断 线性回归问题 收缩方法、脊回归、套索 泛化和非线性 回归样条曲线 局部多项式回归 广义加法模型 R回归Hadoop 练习和案例研究

分类

    分类相关问题 贝叶斯复习 朴素贝叶斯 逻辑回归 K 最近邻 决策树算法 神经网络 支持向量机 分类器诊断 分类方法比较 ScalaBLE分类算法 练习和案例研究

评估模型性能和选择

    偏差、方差和模型复杂性 准确性与可解释性 评估分类器 模型/算法性能的度量 保留验证方法 交叉验证 使用插入符号包调整机器学习算法 使用 Profit ROC 和 Lift 曲线可视化模型性能

集成方法

    装袋 Random Forest秒 提高 梯度提升 练习和案例研究

支持用于分类和回归的向量机

    最大边距分类器 支持向量分类器 支持向量机 用于分类问题的 SVM 用于回归问题的 SVM
练习和案例研究
  • 识别数据集中的未知分组
  • 聚类分析的特征选择 基于代表性的算法:k-means、k-medoids 分层算法:聚合和分裂方法 概率基础算法:EM 基于密度的算法:DBSCAN、DENCLUE 群集验证 高级聚类分析概念 使用R进行聚类Hadoop 练习和案例研究

      使用链接分析发现连接

    链路分析概念 用于分析网络的指标 Pagerank 算法 超链接引发的主题 Search 链路预测 练习和案例研究

      关联模式挖掘

    频繁模式挖掘模型 Scala频繁模式挖掘中的容量问题 蛮力算法 Apriori 算法 FP增长方法 候选规则评估 关联规则的应用 验证和测试 诊断 与 R 和 Hadoop 的关联规则 练习和案例研究

      构建推荐引擎

    了解推荐系统 推荐系统中使用的数据挖掘技术 带有 recommenderlab 软件包的推荐系统 评估推荐系统 RHadoop的建议 练习:构建推荐引擎

      文本分析

    文本分析步骤 收集原始文本 一袋字 术语频率 - 反向文档频率 确定情绪 练习和案例研究

      35 小时

    人数



    每位参与者的报价

    客户评论 (2)

    相关课程

    课程分类