课程大纲

数据分析和大数据简介

  • 大数据何以称为“大”?
    • 速度(Velocity)、体量(Volume)、种类(Variety)、准确度(Veracity)(VVVV)
  • 对传统数据处理的限制
  • 分布式处理
  • 统计分析
  • 机器学习分析的类型
  • 数据可视化

用于数据分析的语言

  • R语言
    • 为什么R用于数据分析?
    • 数据处理、计算、图形显示
  • Python
    • 为什么Python用于数据分析?
    • 操作、处理、清理、运算数据

数据分析的方法

  • 统计分析
    • 时间序列分析
    • 用相关和回归模型预测
    • 推论统计(估算)
    • 大数据集中的描述性统计(例如:计算平均数)
  • 机器学习
    • 监督与无监督学习
    • 分类和聚类
    • 估算具体方法的成本
    • 过滤
  • 自然语言处理
    • 处理文本
    • 理解文本的含义
    • 自动生成文本
    • 情感分析/主题分析
  • 计算机视觉
    • 获取、处理、分析、理解图像
    • 重建、解读、理解3D场景
    • 使用图像数据做出决定

大数据基础架构

  • 数据存储
    • 关系数据库(SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非关系数据库(NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 了解细微差别
      • 分层数据库
      • 面向对象的数据库
      • 面向文档的数据库
      • 面向图形的数据库
      • 其他
  • 分布式处理
    • Hadoop
      • HDFS作为分布式文件系统
      • MapReduce用于分布式处理
    • Spark
      • 用于大规模数据处理的一体化内存集群计算框架
      • 结构化数据流(structured streaming)
      • Spark SQL
      • 机器学习库:MLlib
      • 使用GraphX进行图形处理
  • 可扩展性
    • 公共云
      • AWS、Google、阿里云等
    • 私有云
      • OpenStack、Cloud Foundry等
    • 自动可扩展性
  • 针对问题选择正确的解决方案
  • 大数据的未来
  • 结束语

要求

  • 对数学有大体的了解
  • 对编程有大体的了解
  • 对数据库有大体的了解
 35 小时

人数



每位参与者的报价

客户评论 (5)

相关课程

ArcGIS for Spatial Analysis

14 小时

ArcMap in ArcGIS

14 小时

ArcGIS Pro for Spatial Analysis

14 小时

ArcGIS with Python Scripting

14 小时

QGIS for Geographic Information System

21 小时

Advanced Data Analysis with TIBCO Spotfire

14 小时

Introduction to Spotfire

14 小时

AI-Driven Data Analysis with TIBCO Spotfire X

14 小时

Data Analysis with SQL, Python and Spotfire

14 小时

Sensu: Beginner to Advanced

14 小时

Monitoring Your Resources with Munin

7 小时

Automated Monitoring with Zabbix

14 小时

Fluentd for Log Data Unification

14 小时

Nagios Certified Administrator Preparation

21 小时

Advanced Nagios

21 小时

课程分类