课程大纲

Stratio平台简介

  • Stratio架构与核心模块概述
  • Rocket与Intelligence在数据生命周期中的作用
  • 登录与导航Stratio用户界面

Rocket模块的使用

  • 数据摄取与管道创建
  • 连接数据源并配置转换
  • 使用PySpark在Rocket中进行预处理任务

PySpark Stratio用户基础

  • PySpark数据结构与操作
  • 循环结构:for、while、if/else的使用
  • 使用def编写自定义函数并应用

Rocket与PySpark的高级使用

  • 流式摄取与转换
  • 在批处理和实时场景中使用循环与函数
  • PySpark管道中的性能最佳实践

Intelligence模块探索

  • 数据建模与分析功能概述
  • 特征选择、转换与探索
  • PySpark在自定义分析与洞察中的作用

构建高级分析工作流

  • 在Intelligence中创建用户定义函数(UDFs)
  • 应用条件与循环进行数据逻辑处理
  • 用例:分段、聚合与预测

部署与Collaboration

  • 保存、导出与重用工作流
  • 与团队成员在Stratio上协作
  • 审查输出并与下游工具集成

总结与下一步

要求

  • 具备Python编程经验
  • 理解数据分析或大数据处理概念
  • 具备Apache Spark和分布式计算的基础知识

目标受众

  • 在基于Stratio平台上工作的数据工程师
  • 使用Rocket和Intelligence模块的分析师或开发人员
  • 在Stratio内部过渡到PySpark工作流程的技术团队
 14 小时

客户评论 (5)

即将举行的公开课程

课程分类