课程大纲

Big Data生态系统简介

  • 大数据技术与架构概述
  • 批处理与实时处理对比
  • 可扩展的数据存储策略

使用Apache Spark进行高级数据处理

  • 优化Spark作业性能
  • 高级转换与操作
  • 结构化流处理

Machine Learning规模化应用

  • 分布式模型训练技术
  • 大规模数据集上的超参数调优
  • 大数据环境中的模型部署

Deep Learning与Big Data的结合

  • 将TensorFlow和PyTorch与Spark集成
  • 分布式深度学习训练管道
  • 图像、文本和时间序列分析的应用案例

实时分析与数据流处理

  • Apache Kafka用于流数据摄取
  • 流处理框架
  • 实时系统中的监控与告警

Data Governance、安全与伦理

  • 数据隐私与合规要求
  • Access控制与大数据系统中的加密
  • 大规模分析中的伦理考量

Big Data与Business Intelligence的集成

  • 大数据的数据可视化与仪表盘
  • 将大数据管道连接到BI工具
  • 利用高级分析推动业务成果

总结与下一步

要求

  • 深入了解数据分析和统计建模概念
  • 具备数据处理工具和编程语言的经验,如Python、R或Scala
  • 熟悉分布式计算框架,如Hadoop或Spark

受众

  • 旨在掌握大规模数据处理和预测分析的数据科学家
  • 寻求设计和实施高级分析工作流程的高级分析师
  • 专注于创新数据驱动解决方案的研发专业人员
 42 小时

客户评论 (5)

即将举行的公开课程

课程分类