课程大纲

快速概览

  • 数据源
  • 注意数据
  • 推荐系统
  • 目标 Marketing

数据类型

  • 结构化与非结构化
  • 静态与流式
  • 态度、行为和人口统计数据
  • 数据驱动型分析与用户驱动型分析
  • 数据有效性
  • 数据量、速度和种类

模型

  • 建筑模型
  • 统计模型
  • 机器学习

数据分类

  • 聚类
  • kGroups, k-means, 最近邻
  • 蚁群,鸟类成群结队

预测模型

  • 决策树
  • 支持向量机
  • 朴素贝叶斯分类
  • 神经网络
  • 马尔可夫模型
  • 回归
  • 集成方法

  • 效益/成本比
  • 软件成本
  • 开发成本
  • 潜在优势

构建模型

  • 数据准备 (MapReduce)
  • 数据清理
  • 选择方法
  • 开发模型
  • 测试模型
  • 模型评估
  • 模型部署和集成

开源和商业软件概述

  • 选择 R-project 包
  • Python 库
  • Hadoop 和 Mahout
  • 与大数据和分析相关的 Apache 项目
  • 精选商业解决方案
  • 与现有软件和数据源集成

要求

了解传统的数据管理和分析方法,如SQL、数据仓库、商业智能、OLAP等。了解基本统计和概率(均值、方差、概率、条件概率等......

 21 小时

人数


每位参与者的报价

客户评论 (2)

课程分类