数据流与实时数据处理 培训
课程概述
本课程提供了一种实用且结构化的方法,介绍如何构建实时数据流系统。课程涵盖核心概念、架构模式以及用于大规模处理连续数据的行业工具。参与者将学习如何使用现代框架设计、实现和优化流处理管道。课程从基础概念逐步过渡到实际应用,使学员能够自信地构建生产就绪的实时解决方案。
培训形式
• 讲师引导的课程,附带详细讲解
• 结合真实案例的概念讲解
• 动手演示与编码练习
• 与每日主题相关的渐进式实验
• 互动讨论与问答环节
课程目标
• 理解实时数据流概念与系统架构
• 区分批处理与流数据处理模型
• 设计可扩展且容错的流处理管道
• 使用分布式流处理工具与框架
• 应用事件时间处理、窗口操作与有状态操作
为业务用例构建并优化实时数据解决方案
课程大纲
课程大纲 第1天
• 数据流概念介绍
• 批处理与实时处理基础
• 事件驱动架构基础
• 行业中的常见用例
• 流处理生态系统概览
第2天
• 流处理架构设计模式
• 分布式消息系统基础
• 生产者与消费者
• 主题、分区与数据流
• 数据摄取策略
第3天
• 流处理概念与框架
• 事件时间与处理时间
• 窗口技术与用例
• 有状态流处理
• 容错与检查点基础
第4天
• 流处理管道中的数据转换
• 实时系统中的ETL与ELT
• 模式管理与演进
• 流连接与数据增强
• 基于云的流处理服务介绍
第5天
• 流处理系统中的监控与可观测性
• 安全与访问控制基础
• 性能调优与优化
• 端到端管道设计回顾
• 真实用例,如欺诈检测与物联网处理
需要帮助选择合适的课程吗?
china@nobleprog.com 或拨打 400 6116 540
数据流与实时数据处理 培训 - 询价
数据流与实时数据处理 - 问询
客户评论 (1)
实践练习。课程本应为5天,但3天的学习帮助我解决了在使用NiFi时遇到的许多问题。
James - BHG Financial
课程 - Apache NiFi for Administrators
机器翻译
即将举行的公开课程
相关课程
高级Apache Iceberg
21 小时本课程为讲师指导的线下或线上培训,面向高级数据专业人员,旨在优化数据处理工作流程,确保数据完整性,并实施强大的数据湖仓解决方案,以应对现代大数据应用的复杂性。
培训结束后,学员将能够:
- 深入了解Iceberg的架构,包括元数据管理和文件布局。
- 在各种环境中配置Iceberg以实现最佳性能,并将其与多种数据处理引擎集成。
- 管理大规模Iceberg表,执行复杂的模式变更,并处理分区演化。
- 掌握优化查询性能和数据扫描效率的技术,适用于大规模数据集。
- 实施机制以确保数据一致性,管理事务保证,并处理分布式环境中的故障。
Apache Iceberg 基础
14 小时本课程为讲师指导的线下或线上培训,面向初级数据专业人士,旨在帮助他们掌握使用Apache Iceberg管理大规模数据集、确保数据完整性和优化数据处理工作流程所需的知识与技能。
培训结束后,学员将能够:
- 深入了解Apache Iceberg的架构、功能和优势。
- 学习表格式、分区、模式演进和时间旅行功能。
- 在不同环境中安装和配置Apache Iceberg。
- 创建、管理和操作Iceberg表。
- 了解如何将数据从其他表格式迁移到Iceberg。
使用Google Colab和Apache Spark进行大数据分析
14 小时本课程为讲师指导的培训,在中国(线上或线下)进行,面向希望使用Google Colab和Apache Spark进行大数据处理和分析的中级数据科学家和工程师。
通过本课程,学员将能够:
- 使用Google Colab和Spark搭建大数据环境。
- 利用Apache Spark高效处理和分析大型数据集。
- 在协作环境中可视化大数据。
- 将Apache Spark与基于云的工具集成。
面向政府机构的大数据商业智能
35 小时技术进步和信息量的增加正在改变许多行业的业务模式,包括政府机构。由于移动设备和应用、智能传感器和设备、云计算解决方案以及面向公民的门户的快速增长,政府数据生成和数字存档率正在上升。随着数字信息的扩展和复杂化,信息管理、处理、存储、安全和处置也变得更加复杂。新的捕获、搜索、发现和分析工具正在帮助组织从其非结构化数据中获得洞察。政府市场正处于一个转折点,意识到信息是一种战略资产,政府需要保护、利用和分析结构化和非结构化信息,以更好地服务和满足任务需求。随着政府领导者努力发展数据驱动的组织以成功完成任务,他们正在为跨事件、人员、流程和信息的依赖关系奠定基础。
高价值的政府解决方案将由最具颠覆性的技术组合而成:
- 移动设备和应用
- 云服务
- 社交商业技术和网络
- 大数据和分析
大数据是智能行业解决方案之一,它使政府能够通过分析大量数据(相关和不相关、结构化和非结构化)揭示的模式来做出更好的决策。
但实现这些成就远不止简单地积累大量数据。白宫科技政策办公室的Tom Kalil和Fen Zhao在OSTP博客的一篇文章中写道:“理解这些大数据量需要尖端工具和技术,能够从大量和多样化的信息流中分析和提取有用的知识。”
白宫在2012年设立了国家大数据研究与开发计划,朝着帮助机构找到这些技术迈出了一步。该计划包括超过2亿美元,以充分利用大数据的爆炸式增长及其分析工具。
大数据带来的挑战几乎与其承诺一样令人望而生畏。高效存储数据是这些挑战之一。预算总是紧张的,因此机构必须最大限度地降低每兆字节的存储成本,并确保数据易于访问,以便用户能够在需要时获取数据。备份大量数据进一步加剧了这一挑战。
有效分析数据是另一个主要挑战。许多机构采用商业工具,使他们能够筛选大量数据,发现有助于提高运营效率的趋势。(MeriTalk最近的一项研究发现,联邦IT高管认为大数据可以帮助机构节省超过5000亿美元,同时还能实现任务目标。)
定制开发的大数据工具也允许机构满足分析数据的需求。例如,橡树岭国家实验室的计算数据分析组已将其Piranha数据分析系统提供给其他机构。该系统帮助医学研究人员找到了一种可以在主动脉瘤发作前提醒医生的链接。它还用于更平凡的任务,例如筛选简历以将求职者与招聘经理联系起来。
Data Analysis和Big Data的实用介绍 - 3天
21 小时在 中国 完成此讲师指导的现场培训的参与者将获得对 Big Data 及其相关技术、方法和工具的实用、真实理解。
参与者将有机会通过动手练习将这些知识付诸实践。小组互动和教师反馈构成了课程的重要组成部分。
本课程首先介绍了 Big Data 的基本概念,然后进入用于执行 Data Analysis 的程式设计语言和方法。最后,我们讨论了支援 Big Data 存储、分散式处理和 Scala 特性的工具和基础设施。
Big Data 和高级分析
42 小时Big Data 和高级分析是应用复杂技术和工具来分析大型、复杂数据集,以获取可操作的洞察和战略决策支持。
本次由讲师指导的培训(线上或线下)面向高级数据专业人员,旨在帮助他们利用前沿的分析方法和大数据技术进行预测性、规范性和实时性分析。
培训结束后,参与者将能够:
- 设计和实施大规模数据处理管道,处理结构化和非结构化数据。
- 将高级机器学习和深度学习技术应用于海量数据集。
- 利用分布式计算框架进行实时分析和数据流处理。
- 将大数据分析集成到商业智能和决策支持系统中。
课程形式
- 互动式讲座和讨论。
- 大量练习和实践。
- 在实时实验环境中进行动手操作。
课程定制选项
- 如需为本课程定制培训,请联系我们安排。
Apache NiFi 管理员培训
21 小时Apache NiFi 是一个开源的、基于数据流的数据集成和事件处理平台。它支持自动化的实时数据路由、转换和系统中介,通过基于 Web 的用户界面和细粒度的控制,连接不同的系统。
本次由讲师主导的培训(线下或远程)面向中级管理员和工程师,旨在帮助他们部署、管理、保护和优化生产环境中的 NiFi 数据流。
培训结束后,参与者将能够:
- 安装、配置和维护 Apache NiFi 集群。
- 设计和管理来自不同源和目的地的数据流。
- 实现流的自动化、路由和转换逻辑。
- 优化性能、监控操作并解决问题。
课程形式
- 互动讲座,结合实际架构讨论。
- 动手实验:构建、部署和管理数据流。
- 在实时实验室环境中进行基于场景的练习。
课程定制选项
- 如需定制本课程,请联系我们安排。
PySpark与机器学习
21 小时本培训提供了一个实用的入门指南,介绍如何使用PySpark构建可扩展的数据处理和机器学习工作流。参与者将学习Apache Spark在现代大数据生态系统中的运作方式,以及如何利用分布式计算原理高效处理大规模数据集。
Apache Spark基础
21 小时这种以讲师为主导的中国现场培训(现场或远程)针对的是希望建立和部署Apache Spark系统以处理大量数据的工程师。
在培训结束时,参与者将能够:
- 安装和配置 Apache Spark。
- 快速处理和分析非常大的数据集。
- 了解Apache Spark和Hadoop MapReduce之间的区别,以及何时使用哪个。
- 将 Apache Spark 与其他机器学习工具集成。
Apache Spark 管理
35 小时这种由讲师指导的现场培训中国(远程或远程)面向希望部署、维护和优化 Spark 集群的初级到中级系统管理员。
在培训结束时,参与者将能够:
- 在各种环境中安装和配置 Apache Spark。
- 管理群集资源并监视 Spark 应用程序。
- 优化Spark集群性能。
- 实施安全措施并确保高可用性。
- 调试和排查常见的 Spark 问题。
Apache Spark 云端应用
21 小时Apache Spark的学习曲线在开始时较为平缓,但需要付出大量努力才能获得初步回报。本课程旨在帮助学员跳过最初的学习难关。完成本课程后,学员将掌握Apache Spark的基础知识,能够清晰区分RDD与DataFrame,学习Python和Scala API,理解执行器和任务等。此外,课程还将遵循最佳实践,重点关注云部署、Databricks和AWS。学员还将了解AWS EMR与AWS Glue之间的区别,后者是AWS最新的Spark服务之一。
受众:
数据工程师、DevOps、数据科学家
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Python、Spark和Hadoop在大数据中的应用
21 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用和集成Spark,Hadoop和Python以处理,分析和转换大型复杂数据集的开发人员。
在培训结束时,参与者将能够:
- 设置必要的环境以开始使用 Spark、Hadoop 和 Python 处理大数据。
- 了解 Spark 和 Hadoop 的功能、核心组件和架构。
- 了解如何集成 Spark、Hadoop 和 Python 进行大数据处理。
- 探索 Spark 生态系统中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 构建类似于 Netflix、YouTube、Amazon、Spotify 和 Google 的协作过滤推荐系统。
- 使用 Apache Mahout 扩展机器学习算法。
Stratio: 使用PySpark的Rocket与Intelligence模块
14 小时Stratio是一个以数据为中心的平台,集成了大数据、人工智能和治理功能,提供一体化解决方案。其Rocket和Intelligence模块支持在企业环境中快速进行数据探索、转换和高级分析。
本次由讲师指导的培训(线上或线下)面向中级数据专业人员,旨在帮助他们有效使用Stratio中的Rocket和Intelligence模块与PySpark,重点涵盖循环结构、用户自定义函数和高级数据逻辑。
培训结束后,参与者将能够:
- 在Stratio平台中导航并使用Rocket和Intelligence模块。
- 在数据摄取、转换和分析中应用PySpark。
- 使用循环和条件逻辑控制数据工作流和特征工程任务。
- 创建并管理用户自定义函数(UDFs),以在PySpark中实现可重用的数据操作。
课程形式
- 互动式讲座与讨论。
- 大量练习与实践。
- 在实时实验室环境中进行动手操作。
课程定制选项
- 如需为本课程定制培训,请联系我们安排。