课程大纲
- 大数据基础知识
- 大数据及其在企业界的作用
- 公司内部大数据战略的发展阶段
- 解释大数据整体方法的基本原理
- 大数据平台所需的组件
- 大数据存储解决方案
- 传统技术的局限性
- 数据库类型概述
- 大数据的四个维度
- 大数据对业务的影响
- 大数据对业务的重要性
- 提取有用数据的挑战
- 将大数据与传统数据相结合
- 大数据存储技术
- 大数据技术概述
- 数据存储模型
- Hadoop的
- 蜂房
- 卡珊德拉
- MongoDB数据库
- 选择正确的大数据技术
- 处理大数据
- 连接数据库并从中提取数据
- 转换和准备用于处理的数据
- 使用Hadoop MapReduce处理分布式数据
- 监视和执行Hadoop MapReduce作业
- Hadoop 分布式文件系统构建块
- Mapreduce和Yarn
- 使用 Spark 处理流数据
- 大数据分析工具和技术
- 使用 Pig Latin 语言对 Hadoop 进行编程
- 使用 Hive 查询大数据
- 使用 Mahout 挖掘数据
- 可视化和报告工具
- 商业中的大数据
- 管理和建立大数据需求
- 大数据对业务的重要性
- 为问题选择正确的大数据工具
数据仓库概念
- 什么是 Data Ware?
- OLTP 和 Data Ware Housing 之间的区别
- 数据采集
- 数据提取
- 数据转换。
- 数据加载
- 数据集市
- 从属数据集市与独立数据集市
- 数据库设计
ETL 测试概念:
- 介绍。
- 软件开发生命周期。
- 测试方法。
- ETL 测试工作流程。
- 数据阶段的 ETL 测试职责。
大数据基础
- Big Data 及其在企业界的作用
- 公司内部 Big Data 战略的发展阶段
- 解释整体方法的基本原理 Big Data
- Big Data 平台所需的组件
- 大数据存储解决方案
- 传统技术的局限性
- 数据库类型概述
否SQL数据库
Hadoop
Map Reduce(地图缩减)
Apache Spark
要求
代表们应该对存储工具有一定的认识和经验,以及处理大型数据集的可怕经验
Open Training Courses require 5+ participants.
Big Data - Data Science培训 - 预定
Big Data - Data Science培训 - 询问
Big Data - Data Science - 咨询询问
客户评论 (1)
trainer's knowledge
Fatma Badi - Dubai Electricity & Water Authority
课程 - Big Data - Data Science
即将举行的公开课程
相关课程
Data Vault:构建可扩展的数据仓库
28 小时在这个由讲师指导的中国现场培训中,参与者将学习如何构建Data Vault。
在培训结束时,参与者将能够:
- 了解 Data Vault 2.0 背后的架构和设计概念,以及它与大数据、NoSQL 和 AI 的交互。
- 使用数据保险存储技术对数据仓库中的历史数据进行审计、跟踪和检查。
- 开发一致且可重复的 ETL(提取、转换、加载)流程。
- 构建和部署高度可扩展且可重复的仓库。
Spark Streaming with Python and Kafka
7 小时这种由讲师指导的中国现场现场培训针对的是希望使用Spark Streaming功能处理和分析实时数据的数据工程师,数据科学家和程序员。
在培训结束时,参与者将能够使用 Spark Streaming 处理实时数据流,以便在数据库、文件系统和实时仪表板中使用。
Confluent KSQL
7 小时这种以讲师为主导的中国现场培训(现场或远程)针对的是希望在不编写代码的情况下实现Apache Kafka流处理的开发人员。
在培训结束时,参与者将能够:
- 安装和配置 Confluent KSQL。
- 仅使用 SQL 命令(不使用 Java 或 Python 编码)设置流处理管道。
- 完全在 SQL 中执行数据过滤、转换、聚合、联接、窗口化和会话化。
- 设计和部署交互式连续查询,用于流式 ETL 和实时分析。
Apache Ignite for Developers
14 小时这种由讲师指导的中国现场现场培训面向希望在逐步创建示例内存计算项目时学习持久性和纯内存存储背后的原理的开发人员。
在培训结束时,参与者将能够:
-
使用 Ignite 实现内存中、磁盘上的持久性以及纯分布式内存中数据库。
在不将数据同步回关系数据库的情况下实现持久性。
使用 Ignite 执行 SQL 和分布式联接。
通过使用 RAM 作为存储,将数据移动到更靠近 CPU 的位置来提高性能。
将数据集分布在集群中,以实现水平可扩展性。
将 Ignite 与 RDBMS、NoSQL、Hadoop 和机器学习处理器集成。
Unified Batch and Stream Processing with Apache Beam
14 小时Apache Apex: Processing Big Data-in-Motion
21 小时Apache Storm
28 小时Apache Storm是一款分布式实时计算机,用于实时业务智能。 它这样做,使应用程序能够可靠地处理无限制的数据流(例如: 流量处理)
"Storm 是用于实时处理,而 Hadoop 是用于集合处理!"
在本教练引导的现场培训中,参与者将学习如何安装和配置,然后开发和部署一个应用程序,以实时处理大数据。
在本培训中包含的一些主题包括:
- Apache Storm在背景下 Hadoop
- 使用无限数据
- 持续计算
- 实时分析
- 分布式RPC和ETL处理
请求此课程!
观众
- 软件和ETL开发人员
- 主要专业人士
- 数据科学家
- 大数据分析师
- [ ] 专业人士
课程格式
- 部分讲座,部分讨论,练习和重练习
Apache NiFi for Administrators
21 小时在这个由讲师指导的中国现场(现场或远程)的现场培训中,参与者将学习如何在现场实验室环境中部署和管理Apache NiFi。
在培训结束时,参与者将能够:
- 安装和配置 Apachi NiFi。
- 从不同的分布式数据源(包括数据库和大数据湖)中获取、转换和管理数据。
- 自动化数据流。
- 启用流式分析。
- 应用各种方法进行数据引入。
- 转换 Big Data 并转化为业务见解。
Apache NiFi for Developers
7 小时在这个由讲师指导的中国现场培训中,参与者将学习基于流程的编程的基础知识,因为他们使用Apache NiFi开发许多演示扩展,组件和处理器。
在培训结束时,参与者将能够:
- 了解 NiFi 的架构和数据流概念。
- 使用 NiFi 和第三方 API 开发扩展。
- 定制开发自己的Apache Nifi处理器。
- 从不同且不常见的文件格式和数据源中提取和处理实时数据。
Apache Flink Fundamentals
28 小时这个由讲师指导的中国 现场(远程或远程)的现场培训介绍了分布式流和批处理数据处理背后的原理和方法,并引导参与者在Apache Flink中创建实时数据流应用程序。
在培训结束时,参与者将能够:
-
设置用于开发数据分析应用程序的环境。
了解 Apache Flink 的 图形处理库 (Gelly) 是如何工作的。
打包、执行和监控基于 Flink 的容错数据流应用程序。
管理各种工作负载。
执行高级分析。
设置多节点 Flink 集群。
衡量和优化性能。
将 Flink 与不同的 Big Data 系统集成。
将 Flink 的能力与其他大数据处理框架进行比较。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习时结合使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析大数据。
- 进行模仿真实案例的练习。
- 使用不同的工具和技术使用 PySpark 进行大数据分析。
图形计算简介
28 小时在这个以讲师为主导的中国现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别真实世界的对象、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据进行处理。我们从广泛的概述开始,并在逐步完成一系列案例研究、动手练习和实时部署时缩小具体工具的范围。
在培训结束时,参与者将能够:
- 了解如何持久化和遍历图形数据。
- 为给定任务选择最佳框架(从图形数据库到批处理框架)。
- 实现 Hadoop、Spark、GraphX 和 Pregel,在多台机器上并行进行图计算。
- 从图形、流程和遍历的角度查看现实世界的大数据问题。