数据流与实时数据处理 培训
课程概述
本课程提供了一种实用且结构化的方法,介绍如何构建实时数据流系统。课程涵盖核心概念、架构模式以及用于大规模处理连续数据的行业工具。参与者将学习如何使用现代框架设计、实现和优化流处理管道。课程从基础概念逐步过渡到实际应用,使学员能够自信地构建生产就绪的实时解决方案。
培训形式
• 讲师引导的课程,附带详细讲解
• 结合真实案例的概念讲解
• 动手演示与编码练习
• 与每日主题相关的渐进式实验
• 互动讨论与问答环节
课程目标
• 理解实时数据流概念与系统架构
• 区分批处理与流数据处理模型
• 设计可扩展且容错的流处理管道
• 使用分布式流处理工具与框架
• 应用事件时间处理、窗口操作与有状态操作
为业务用例构建并优化实时数据解决方案
课程大纲
课程大纲 第1天
• 数据流概念介绍
• 批处理与实时处理基础
• 事件驱动架构基础
• 行业中的常见用例
• 流处理生态系统概览
第2天
• 流处理架构设计模式
• 分布式消息系统基础
• 生产者与消费者
• 主题、分区与数据流
• 数据摄取策略
第3天
• 流处理概念与框架
• 事件时间与处理时间
• 窗口技术与用例
• 有状态流处理
• 容错与检查点基础
第4天
• 流处理管道中的数据转换
• 实时系统中的ETL与ELT
• 模式管理与演进
• 流连接与数据增强
• 基于云的流处理服务介绍
第5天
• 流处理系统中的监控与可观测性
• 安全与访问控制基础
• 性能调优与优化
• 端到端管道设计回顾
• 真实用例,如欺诈检测与物联网处理
需要帮助选择合适的课程吗?
数据流与实时数据处理 培训 - 询价
数据流与实时数据处理 - 问询
客户评论 (1)
实践练习。课程本应为5天,但3天的学习帮助我解决了在使用NiFi时遇到的许多问题。
James - BHG Financial
课程 - Apache NiFi for Administrators
机器翻译
即将举行的公开课程
相关课程
使用Google Colab和Apache Spark进行大数据分析
14 小时本课程为讲师指导的培训,在中国(线上或线下)进行,面向希望使用Google Colab和Apache Spark进行大数据处理和分析的中级数据科学家和工程师。
通过本课程,学员将能够:
- 使用Google Colab和Spark搭建大数据环境。
- 利用Apache Spark高效处理和分析大型数据集。
- 在协作环境中可视化大数据。
- 将Apache Spark与基于云的工具集成。
健康领域的大数据分析
21 小时大数据分析涉及检查大量多样化数据集的过程,以揭示相关性、隐藏模式和其他有用的见解。
健康行业拥有大量复杂的异构医疗和临床数据。将大数据分析应用于健康数据,在改善医疗保健服务方面具有巨大潜力。然而,这些数据集的庞大规模对分析和在临床环境中的实际应用提出了巨大挑战。
在这个由讲师指导的远程培训中,学员将通过一系列实践操作练习,学习如何在健康领域进行大数据分析。
培训结束后,学员将能够:
- 安装和配置大数据分析工具,如Hadoop MapReduce和Spark
- 理解医疗数据的特征
- 应用大数据技术处理医疗数据
- 在健康应用的背景下研究大数据系统和算法
受众
- 开发者
- 数据科学家
课程形式
- 部分讲座,部分讨论,练习和大量实践操作。
注意
- 如需为本课程定制培训,请联系我们安排。
面向管理员的 Hadoop
21 小时Apache Hadoop 是最流行的用于在服务器集群上处理 Big Data 的框架。在这个为期三(可选四)天的课程中,学员将了解 Hadoop 及其生态系统的商业优势和用例,如何规划集群的部署和扩展,如何安装、维护、监控、故障排除和优化 Hadoop。他们还将练习集群批量数据加载,熟悉各种 Hadoop 发行版,并练习安装和管理 Hadoop 生态系统工具。课程最后将讨论如何使用 Kerberos 保护集群。
“……材料准备得非常充分,涵盖全面。实验室非常有帮助且组织有序。” — Andrew Nguyen, 首席集成数据仓库工程师, Microsoft 线上 Advertising
受众
Hadoop 管理员
形式
讲座与动手实验,大致比例为 60% 讲座,40% 实验。
Hadoop开发者课程(4天)
28 小时Apache Hadoop是处理大数据最流行的框架,适用于服务器集群。本课程将向开发者介绍Hadoop生态系统的各种组件(HDFS、MapReduce、Pig、Hive和HBase)。
高级Hadoop开发者课程
21 小时Apache Hadoop是最流行的框架之一,用于在服务器集群上处理大数据。本课程深入探讨HDFS中的数据管理、高级Pig、Hive和HBase。这些高级编程技术将对有经验的Hadoop开发者非常有益。
受众:开发者
时长:三天
形式:讲座(50%)和动手实验(50%)。
Hadoop 和 Spark 管理员培训
35 小时这种由讲师指导的中国现场培训(现场或远程)针对的是希望学习如何在组织内设置,部署和管理Hadoop集群的系统管理员。
在培训结束时,参与者将能够:
- 安装和配置 Apache Hadoop。
- 了解 Hadoop 生态系统中的四个主要组件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分布式文件系统 (HDFS) 将集群扩展到数百或数千个节点。
- 将 HDFS 设置为本地 Spark 部署的存储引擎。
- 设置 Spark 以访问替代存储解决方案,例如 Amazon S3 和 NoSQL 数据库系统,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 执行管理任务,例如配置、管理、监控和保护 Apache Hadoop 集群。
HBase开发者课程
21 小时本课程介绍HBase——一个基于Hadoop的NoSQL存储系统。本课程面向使用HBase开发应用程序的开发人员,以及管理HBase集群的管理员。
我们将带领开发人员了解HBase的架构、数据建模以及在HBase上进行应用程序开发。课程还将讨论如何将MapReduce与HBase结合使用,以及一些与性能优化相关的管理主题。课程非常注重实践,包含大量实验练习。
时长:3天
受众:开发人员和管理员
Apache NiFi 管理员培训
21 小时Apache NiFi 是一个开源的、基于数据流的数据集成和事件处理平台。它支持自动化的实时数据路由、转换和系统中介,通过基于 Web 的用户界面和细粒度的控制,连接不同的系统。
本次由讲师主导的培训(线下或远程)面向中级管理员和工程师,旨在帮助他们部署、管理、保护和优化生产环境中的 NiFi 数据流。
培训结束后,参与者将能够:
- 安装、配置和维护 Apache NiFi 集群。
- 设计和管理来自不同源和目的地的数据流。
- 实现流的自动化、路由和转换逻辑。
- 优化性能、监控操作并解决问题。
课程形式
- 互动讲座,结合实际架构讨论。
- 动手实验:构建、部署和管理数据流。
- 在实时实验室环境中进行基于场景的练习。
课程定制选项
- 如需定制本课程,请联系我们安排。
Apache NiFi 开发者培训
7 小时在这个由讲师指导的 中国 现场培训中,参与者将学习基于流程的程式设计的基础知识,因为他们使用 Apache NiFi 开发许多演示扩展、元件和处理器。
在培训结束时,参与者将能够:
- 了解 NiFi 的架构和数据流概念。
- 使用 NiFi 和第三方 API 开发扩展。
- 定制开发自己的Apache Nifi处理器。
- 从不同和不常见的档格式和数据源中摄取和处理实时数据。
PySpark与机器学习
21 小时本培训提供了一个实用的入门指南,介绍如何使用PySpark构建可扩展的数据处理和机器学习工作流。参与者将学习Apache Spark在现代大数据生态系统中的运作方式,以及如何利用分布式计算原理高效处理大规模数据集。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Python、Spark和Hadoop在大数据中的应用
21 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用和集成Spark,Hadoop和Python以处理,分析和转换大型复杂数据集的开发人员。
在培训结束时,参与者将能够:
- 设置必要的环境以开始使用 Spark、Hadoop 和 Python 处理大数据。
- 了解 Spark 和 Hadoop 的功能、核心组件和架构。
- 了解如何集成 Spark、Hadoop 和 Python 进行大数据处理。
- 探索 Spark 生态系统中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 构建类似于 Netflix、YouTube、Amazon、Spotify 和 Google 的协作过滤推荐系统。
- 使用 Apache Mahout 扩展机器学习算法。
Stratio: 使用PySpark的Rocket与Intelligence模块
14 小时Stratio是一个以数据为中心的平台,集成了大数据、人工智能和治理功能,提供一体化解决方案。其Rocket和Intelligence模块支持在企业环境中快速进行数据探索、转换和高级分析。
本次由讲师指导的培训(线上或线下)面向中级数据专业人员,旨在帮助他们有效使用Stratio中的Rocket和Intelligence模块与PySpark,重点涵盖循环结构、用户自定义函数和高级数据逻辑。
培训结束后,参与者将能够:
- 在Stratio平台中导航并使用Rocket和Intelligence模块。
- 在数据摄取、转换和分析中应用PySpark。
- 使用循环和条件逻辑控制数据工作流和特征工程任务。
- 创建并管理用户自定义函数(UDFs),以在PySpark中实现可重用的数据操作。
课程形式
- 互动式讲座与讨论。
- 大量练习与实践。
- 在实时实验室环境中进行动手操作。
课程定制选项
- 如需为本课程定制培训,请联系我们安排。