课程大纲

Data Analysis 和大数据简介

    是什么让 Big Data 变得“大”? 速度、体积、多样性、准确性 (VVVV)
传统数据处理的局限性
  • 分布式处理
  • 统计分析
  • Machine Learning 分析类型
  • Data Visualization
  • Big Data 角色和职责
  • 管理员 开发 人员 数据分析师

      Languages 用于数据分析

    R Language 为什么使用 R 进行数据分析? 数据操作、计算和图形显示

      Python 为什么Python进行数据分析?
    操作、处理、清理和处理数据
  • Data Analysis 的方法
  • 统计分析 时间序列分析 使用相关性和回归模型进行预测 推断 Statistics(估计) 大数据集中的描述性Statistics(例如计算平均值)
  • Machine Learning 监督学习与无监督学习

      分类和聚类
    估算特定方法的成本
  • 滤波
  • 自然语言处理 处理文本
  • 理解文本的含义
  • 自动文本生成
  • 情感分析/主题分析
  • Computer Vision 获取、处理、分析和理解图像
  • 重建、解释和理解 3D 场景
  • 使用图像数据做出决策
  • Big Data 基础设施
  • 数据存储 关系数据库 (SQL) 我的SQL Postgres的 神谕
  • 非关系数据库 (NoSQL) 卡珊德拉
  • MongoDB
  • Neo4j秒
  • 了解细微差别 分层数据库

      面向对象的数据库
    面向文档的数据库
  • 面向图形的数据库
  • 其他
  • 分布式处理 Hadoop HDFS 作为分布式文件系统
  • MapReduce用于分布式处理
  • 火花 用于大规模数据处理的多合一内存集群计算框架
  • 结构化流式处理
  • 火花 SQL
  • Machine Learning 库:MLlib
  • 使用 GraphX 进行图形处理
  • Scala能力 公有云 AWS、谷歌、阿里云等 私有云 OpenStack、Cloud Foundry等
  • 自动扩展性
  • 为问题选择正确的解决方案
  • Big Data 的未来
  • 总结和结论
  • 要求

    • 对数学有大致的了解。
    • 对编程有大致的了解。
    • 对数据库有大致的了解。

    观众

    • 开发人员/程序员
    • IT顾问
      35 小时
     

    人数


    开始

    完结


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    客户评论 (2)

    相关课程