课程大纲
Stratio平台简介
- Stratio架构与核心模块概述
- Rocket和Intelligence在数据生命周期中的作用
- 登录并导航Stratio用户界面
使用Rocket模块
- 数据摄取与管道创建
- 连接数据源并配置转换
- 在Rocket中使用PySpark进行预处理任务
Stratio用户的PySpark基础
- PySpark数据结构与操作
- 循环结构:for、while、if/else的使用
- 使用def编写自定义函数并应用
高级使用Rocket与PySpark
- 流式摄取与转换
- 在批处理和实时场景中使用循环与函数
- PySpark管道中的性能最佳实践
探索Intelligence模块
- 数据建模与分析功能概述
- 特征选择、转换与探索
- PySpark在自定义分析与洞察中的作用
构建高级分析工作流
- 在Intelligence中创建用户自定义函数(UDFs)
- 应用条件与循环实现数据逻辑
- 用例:分段、聚合与预测
部署与协作
- 保存、导出与重用工作流
- 在Stratio中与其他团队成员协作
- 审查输出并与下游工具集成
总结与后续步骤
要求
- 具备Python编程经验
- 理解数据分析或大数据处理概念
- 具备Apache Spark和分布式计算的基础知识
目标受众
- 在Stratio平台上工作的数据工程师
- 使用Rocket和Intelligence模块的分析师或开发人员
- 在Stratio中转向PySpark工作流程的技术团队
客户评论 (4)
Hands-on examples allowed us to get an actual feel for how the program works. Good explanations and integration of theoretical concepts and how they relate to practical applications.
Ian - Archeoworks Inc.
课程 - ArcGIS Fundamentals
All the topics which he covered including examples. And also explained how they are helpful in our daily job.
madduri madduri - Boskalis Singapore Pte Ltd
课程 - QGIS for Geographic Information System
I really enjoyed the training. I found all modules to be applicable to problems that I am trying to solve at work. The integration of the training with jupyter notebooks was really impressive.
Mark Firmin - Environment and Climate Change Canada
课程 - Python for Geographic Information System (GIS)
The thing I liked the most about the training was the organization and the location