大数据培训课程 | Big Data培训课程

大数据培训课程

由讲师进行实时指导的大数据本地培训课程将首先介绍大数据的元素概念,然后介绍用于执行数据分析的编程语言和方法。在课程的演示练习环节,我们会讨论、比较并使用用于实现大数据存储、分布式处理、可伸缩性的工具和基础架构。

大数据培训形式包括“现场实时培训”和“远程实时培训”。现场实时培训可在客户位于中国的所在场所或NobleProg位于中国的企业培训中心进行,远程实时培训可通过交互式远程桌面进行。

NobleProg -- 您的本地培训提供商

客户评论

★★★★★
★★★★★

大数据课程大纲

Title
Duration
Overview
Title
Duration
Overview
14 hours
Overview
目标:

学习在独立性水平上使用SPSS

收件人:

分析师,研究人员,科学家,学生和所有想要获得使用SPSS包并学习流行数据挖掘技术的人。
21 hours
Overview
Apache NiFi(Hortonworks DataFlow)是一个实时综合数据物流和简单的事件处理平台,可以在系统之间移动,跟踪和自动化数据。它使用基于流程的编程编写,并提供基于Web的用户界面来实时管理数据流。 在这个有指导的实时培训中,参与者将学习如何在实验室环境中部署和管理Apache NiFi。 在培训结束后,参与者将能够: 安装并配置Apachi NiFi 来源,转换和管理来自不同分布式数据源的数据,包括数据库和大数据湖泊自动化数据流启用流式分析应用各种方法进行数据摄取将大数据转化为商业洞察 听众 系统管理员数据工程师开发商 DevOps的 课程的格式 部分讲座,部分讨论,练习和沉重的练习
28 hours
Overview
MonetDB是开源数据库,开创了列存储技术方法。 在这个有指导意义的现场培训中,参与者将学习如何使用MonetDB以及如何从中获得最大价值。 在培训结束后,参与者将能够: 了解MonetDB及其功能安装并开始使用MonetDB 在MonetDB中探索和执行不同的功能和任务通过最大限度地发挥MonetDB功能加速他们项目的交付 听众 开发商技术专家 课程的格式 部分讲座,部分讨论,练习和沉重的练习
28 hours
Overview
MemSQL是一个内存,分布式,用于云和onPremises的SQL数据库管理系统。这是一个实时数据仓库,可立即提供实时和历史数据的见解。 在这个有指导意义的现场培训中,参与者将学习MemSQL的开发和管理基本知识。 在培训结束后,参与者将能够: 了解MemSQL的关键概念和特性安装,设计,维护和操作MemSQL 在MemSQL中优化模式在MemSQL中改进查询 MemSQL的基准性能使用MemSQL构建实时数据应用程序 听众 开发商管理员操作工程师 课程的格式 部分讲座,部分讨论,练习和沉重的练习
28 hours
Overview
Hadoop是一个流行的大数据处理框架。 Python是一种高级编程语言,因其清晰的语法和代码可读性而闻名。 在这个有指导意义的实时培训中,参与者将学习如何使用Python处理Hadoop,MapReduce,Pig和Spark,因为他们逐步了解了多个示例和用例。 在培训结束后,参与者将能够: 了解Hadoop,MapReduce,Pig和Spark背后的基本概念在Hadoop分布式文件系统(HDFS),MapReduce,Pig和Spark中使用Python 使用Snakebite以编程方式访问Python中的HDFS 使用mrjob在Python中编写MapReduce作业用Python编写Spark程序使用Python UDF扩展猪的功能使用Luigi管理MapReduce作业和Pig脚本 听众 开发商 IT专业人员 课程的格式 部分讲座,部分讨论,练习和沉重的练习
21 hours
Overview
Spark是一个用于查询、分析和转换大数据的数据处理引擎。Python是一种高级编程语言,因其清晰的语法和代码可读性而闻名。PySpark允许用户将Spark与Python连接。

在这一由讲师引导的现场培训中,学员将通过实践练习学习如何使用Python和Spark一起分析大数据。

在本次培训结束后,学员将能够:

- 了解如何使用Spark和Python一起分析大数据
- 开展模拟真实世界环境的练习
- 用不同的工具和技术通过PySpark进行大数据分析

受众

- 开发人员
- IT专业人士
- 数据科学家

课程形式

- 部分讲座、部分讨论、练习和大量实操
35 hours
Overview
技术进步和信息量的增加正在改变执法的执行方式。大数据所带来的挑战几乎与大数据的承诺一样令人生畏。有效地存储数据是这些挑战中的一个。有效地分析它是另一回事。 在这种有指导性的现场培训中,与会者将学习如何使用大数据技术,评估其对现有流程和政策的影响,以及实施这些技术以确定犯罪活动和预防犯罪。世界各地执法机构的案例研究将进行审查,以了解他们的采用方式,挑战和结果。 在培训结束后,参与者将能够: 将大数据技术与传统的数据收集流程相结合,在调查过程中拼凑出一个故事实施工业大数据存储和处理解决方案进行数据分析为采用最适当的工具和程序来制定数据驱动的刑事调查方法提出建议 听众 具有技术背景的执法专家 课程的格式 部分讲座,部分讨论,练习和沉重的练习
14 hours
Overview
为了符合监管机构的合规性,CSP(通信服务提供商)可以利用Big 数据分析不仅可以帮助他们达到合规要求,还可以在相同的范围内进行项目,他们可以提高客户满意度,从而减少客户流失。事实上,因为合规与服务质量与合同有关,任何主动行动都要符合合同合规性将提高CSP的“竞争优势”。因此,这很重要监管机构应该能够为CSP提供建议/指导一套大数据分析实践在监管机构和CSP之间是互利的。 当然2天:8个模块,每个2小时= 16个小时
28 hours
Overview
大量现实问题可以用图形来描述。例如,Web图形、社交网络图形、火车网络图形、语言图形。这些图形往往太大,处理它们需要一组专门的工具和流程——这些工具和流程可以称为图形计算(也称为图形分析)。

在这一由讲师指导的实时培训中,学员将学习处理图形数据的技术产品和实施方法。目的是识别真实世界里的对象、它们的特征和关系,然后使用图形计算方法对这些关系进行建模并将它们作为数据处理。通过一系列的案例研究、动手练习和实时部署,我们将从广泛的概述开始,然后对特定工具展开详细的学习。

在本次培训结束之后,学员将能够:

- 理解图形数据如何持久化和遍历
- 为给定任务选择最佳框架(从图形数据库到批处理框架)
- 实现Hadoop、Spark、GraphX、Pregel,并行地在多台机器上进行图形计算
- 从图形、流程、遍历方面查看现实世界的大数据问题

受众

- 开发人员

课程形式

- 部分讲座、部分讨论、练习和大量实操
21 hours
Overview
预测性分析是使用数据分析来预测未来的过程。此过程使用数据以及数据挖掘、统计和机器学习技术创建可用来预测未来事件的预测模型。

在这一由讲师引导的现场培训中,参与者将学习如何使用Matlab建立预测模型,并将其应用于大样本数据集,以根据数据预测未来事件。

在培训结束后,参与者将能够:

- 创建预测模型来分析历史和交易数据中的规律
- 使用预测建模来识别风险和机会
- 建立捕捉重要趋势的数学模型
- 使用来自设备和业务系统的数据来减少浪费、节省时间或降低成本

受众

- 开发人员
- 工程师
- 领域专家

课程形式

- 部分讲座、部分讨论、练习和大量实操
7 hours
Overview
Apache NiFi (Hortonworks datamflow) 是一个实时集成数据物流和简单的事件处理平台, 可实现系统之间数据的移动、跟踪和自动化。它是使用基于流的编程编写的, 并提供了一个基于 web 的用户界面来实时管理数据流.

在本讲师指导的现场培训中, 学员将学习基于流的编程的基础知识, 因为他们使用 Apachnifi 开发了许多演示扩展、组件和处理器.

到本次培训结束时, 学员将能够:

- 了解 nifi & #39; 的体系结构和数据流概念
。 - 开发使用 nifi 和第三方 api
的扩展。 - 定制开发自己的 apache nifi 处理器
。 - 从不同和不常见的文件格式和数据源中收集和处理实时数据.
课程 的

格式

- 互动讲座和讨论.
- 大量的练习和练习
- 在现场
实验室环境中的实际实现。

课程自定义选项

- 要要求本课程的定制培训, 请联系我们安排
14 hours
Overview
Apache SolrCloud是一个分布式数据处理引擎,可以帮助在分布式网络上搜索和索引文件。 在这个有指导意义的现场培训中,参与者将学习如何在Amazon AWS上设置SolrCloud实例。 在培训结束后,参与者将能够: 了解SolCloud的功能以及它们与常规主控群集的功能之间的对比配置一个SolCloud集中式集群自动执行流程,如与分片进行通信,向碎片添加文档等。 将Zookeeper与SolrCloud结合使用可进一步实现流程自动化使用界面来管理错误报告负载平衡SolrCloud安装配置SolrCloud以进行连续处理和故障转移 听众 Solr开发人员项目经理系统管理员搜索分析师 课程的格式 部分讲座,部分讨论,练习和沉重的练习
14 hours
Overview
AI是用于构建智能系统的技术集合,能够理解数据以及数据周围的活动,从而做出“智能决策”。对于电信提供商而言,使用人工智能的建筑应用和服务可为改善维护和网络优化等领域的运营和服务打开大门。 在本课程中,我们将研究构成人工智能的各种技术以及使用它们所需的技能。在整个过程中,我们将研究AI在电信行业的具体应用。 听众 网络工程师网络运营人员电信技术经理 课程的格式 部分讲座,部分讨论,简单练习
28 hours
Overview
Data Vault建模是一种数据库建模技术,可提供源自多个源的数据的长期历史存储。一个Data Vault存储事实或“所有数据、所有时间”的单个版本。其灵活、可扩展、一致且适应性强的设计涵盖了第三范式(3NF)和星型模型(star schema)的最佳方面。

在这一由讲师指导的实时培训中,学员将学习如何构建一个Data Vault。

在本次培训结束之后,学员将能够:

- 了解Data Vault 2.0背后的架构和设计概念,以及它与大数据、NoSQL、AI的交互。
- 使用数据存储(data vaulting)技术对数据仓库中的历史数据进行审计、跟踪、检查
- 开发一致且可重复的ETL(提取、转换、加载)过程
- 构建和部署高度可扩展且可重复的仓库

受众

- 数据建模师
- 数据仓库专家
- 商业智能专家
- 数据工程师
- 数据库管理员

课程形式

- 部分讲座、部分讨论、练习和大量实操
14 hours
Overview
Datameer是基于Hadoop构建的商业智能和分析平台。它允许最终用户以易用的方式访问,探索和关联大规模,结构化,半结构化和非结构化数据。 在这个有指导意义的实时培训中,参与者将学习如何使用Datameer来克服Hadoop陡峭的学习曲线,因为他们将逐步完成对一系列大数据源的设置和分析。 在培训结束后,参与者将能够: 创建,策划和交互式地探索企业数据湖访问商业智能数据仓库,交易数据库和其他分析商店使用电子表格用户界面设计端对端数据处理管道访问预建功能来探索复杂的数据关系使用拖放式向导来可视化数据并创建仪表板使用表格,图表,图形和地图来分析查询结果 听众 数据分析师 课程的格式 部分讲座,部分讨论,练习和沉重的练习
14 hours
Overview
Tigon是一款开源,实时,低延迟,高吞吐量,本地YARN,位于HDFS和HBase之上的流处理框架,用于实现持久性。 Tigon应用程序可以解决网络入侵检测和分析,社交媒体市场分析,位置分析以及用户实时推荐等使用案例。 这个有指导意义的现场培训介绍了Tigon的混合实时和批处理的方法,因为它会让参与者通过创建示例应用程序。 在培训结束后,参与者将能够: 创建强大的流处理应用程序来处理大量数据流程流源,例如Twitter和Web服务器日志使用Tigon快速连接,过滤和聚合流 听众 开发商 课程的格式 部分讲座,部分讨论,练习和沉重的练习
14 hours
Overview
Apache 点火是一个内存中计算平台, 位于应用程序和数据层之间, 以提高速度、规模和可用性。

在这个讲师指导的现场培训中, 参与者将学习持久和纯内存中存储背后的原则, 同时他们将逐步创建一个内存中的示例计算项目

到本次培训结束时, 学员将能够:

- 使用点燃程序进行内存、磁盘持久性以及纯粹分布式内存中的数据库
。 - 在不将数据同步回关系数据库
的情况下实现持久性。 - 使用 "点燃" 执行 SQL 和分布式联接
。 - 通过将数据移动到更靠近 CPU 的地方, 使用 RAM 作为存储来提高性能
- 将数据集分散到群集上, 以实现水平可伸缩性
- 将点燃与 RDBMS、NoSQL、Hadoop 和机器学习处理器集成.
课程 的

格式

- 互动讲座和讨论.
- 大量的练习和练习
- 在现场
实验室环境中的实际实现。

课程自定义选项

- 要要求本课程的定制培训, 请联系我们安排
14 hours
Overview
Vespa是由雅虎创建的开源大数据处理和服务引擎。它用于响应用户查询,提出建议,并实时提供个性化内容和广告。 这种有指导意义的实时培训引入了服务大型数据的挑战,并通过创建可实时计算大型数据集中的用户请求响应的应用程序来引导参与者。 在培训结束后,参与者将能够: 使用Vespa可以在用户等待时在服务时间快速计算数据(存储,搜索,排名,组织) 将Vespa实施到涉及功能搜索,建议和个性化的现有应用程序中将Vespa与现有的大数据系统(如Hadoop和Storm)集成并部署。 听众 开发商 课程的格式 部分讲座,部分讨论,练习和沉重的练习
21 hours
Overview
Apache Apex是一个统一流和批处理的YARNnative平台。它以可伸缩,高性能,容错,有状态,安全,分布式和易于操作的方式处理大型数据移动。 这个有指导性的现场培训介绍了Apache Apex的统一流处理架构,并向参与者介绍了如何在Hadoop上使用Apex创建分布式应用程序。 在培训结束后,参与者将能够: 了解数据处理管道概念,例如源和汇的连接器,通用数据转换等。 构建,扩展和优化Apex应用程序可靠地处理实时数据流,延迟时间最短使用Apex Core和Apex Malhar库实现快速应用程序开发使用Apex API来编写和重用现有的Java代码将Apex作为处理引擎集成到其他应用程序中调整,测试和缩放Apex应用程序 听众 开发商企业架构师 课程的格式 部分讲座,部分讨论,练习和沉重的练习
7 hours
Overview
Alexio是一个开源的虚拟分布式存储系统,它统一了不同的存储系统,使应用程序能够以内存速度与数据进行交互。它被英特尔,百度和阿里巴巴等公司使用。 在这个有指导意义的现场培训中,参与者将学习如何使用Alexio将不同的计算框架与存储系统连接起来,并在他们逐步通过使用Alluxio创建应用程序时高效地管理多字节规模数据。 在培训结束后,参与者将能够: 使用Alluxio开发应用程序连接大数据系统和应用程序,同时保留一个名称空间从任何存储格式的大数据中有效提取价值改善工作量表现部署和管理独立或群集的Alluxio 听众 数据科学家开发人员系统管理员 课程的格式 部分讲座,部分讨论,练习和沉重的练习
28 hours
Overview
apacecflink 是一个开源框架, 用于可扩展的流和批处理数据处理



本讲师指导的现场培训介绍了分布式流和批处理背后的原则和方法, 并引导参与者在 Apacheflink 中创建实时数据流应用程序



到本次培训结束时, 学员将能够:

- 为开发数据分析应用程序设置
环境。 - 打包、执行和监视基于 flinkl 的容错数据流应用程序
- 管理不同
的工作负载。 - 使用 Flink ML 执行高级分析
- 设置多节点 Flink 群集.
- 测量和优化性能
。 - 将 Flink 与不同的大数据系统集成
。 - 将 Flink 功能与其他大数据处理框架的功能进行比较
。 课程 格式

- 部分讲座、部分讨论、练习和大量的动手练习
14 hours
Overview
Apache Samza是一个开源的nearrealtime,用于流处理的异步计算框架。它使用Apache Kafka进行消息传递,使用Apache Hadoop YARN进行容错,处理器隔离,安全性和资源管理。 这个有指导意义的现场培训介绍了消息传递系统和分布式流处理的原理,同时通过创建Samzabased项目和作业执行样本来参与者。 在培训结束后,参与者将能够: 使用Samza来简化生成和使用消息所需的代码。 解耦来自应用程序的消息的处理。 使用Samza来实现近乎实时的异步计算。 使用流处理为消息传递系统提供更高层次的抽象。 听众 开发商 课程的格式 部分讲座,部分讨论,练习和沉重的练习
21 hours
Overview
Apache Drill是一种无模式、分布式、内存列式SQL查询引擎,用于Hadoop、NoSQL及其他云和文件存储系统。Apache Drill的强大之处在于它能够使用单个查询连接来自多个数据存储的数据。Apache Drill支持许多NoSQL数据库和文件系统,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、Swift、NAS和本地文件。

在这一由讲师引导的现场培训中,学员将学习Apache Drill的基础知识,然后利用SQL的强大功能和便利性在无需编写代码的情况下交互式查询大数据。学员还将学习如何优化分布式SQL执行的Drill查询。

在本次培训结束后,学员将能够:

- 对Hadoop上的结构化和半结构化数据进行“自助式”探索
- 使用SQL查询来查询已知以及未知数据
- 了解Apache Drills如何接收和执行查询
- 编写SQL查询来分析不同类型的数据,包括Hive中的结构化数据,HBase或MapR-DB表中的半结构化数据,以及Parquet和JSON文件中保存的数据。
- 使用Apache Drill执行即时模式发现,绕过对复杂ETL和模式操作的需求
- 将Apache Drill与BI(商业智能)工具(如Tableau、Qlikview、MicroStrategy、Excel)集成在一起

受众

- 数据分析师
- 数据科学家
- SQL程序员

课程形式

- 部分讲座、部分讨论、练习和大量实操
7 hours
Overview
在这个有指导意义的现场培训中,参与者将学习MapR流体系结构背后的核心概念,因为他们开发的是实时流式传输应用程序。 到培训结束时,参与者将能够构建实时流数据处理的生产者和消费者应用程序。 听众 开发商管理员 课程的格式 部分讲座,部分讨论,练习和沉重的练习 注意 要请求本课程的定制培训,请联系我们安排。
14 hours
Overview
Magellan是一个开源分布式执行引擎,用于处理大数据的地理空间分析。它在Apache Spark之上实现,它扩展了Spark SQL并为地理空间分析提供了关系抽象。 这种有指导意义的实时培训介绍了实施地理空间分析的概念和方法,并通过在Spark上使用Magellan创建预测分析应用程序来引导参与者。 在培训结束后,参与者将能够: 按比例高效地查询,解析和加入地理空间数据集在商业智能和预测分析应用程序中实施地理空间数据使用空间上下文来扩展移动设备,传感器,日志和可穿戴设备的功能 听众 应用开发者 课程的格式 部分讲座,部分讨论,练习和沉重的练习
14 hours
Overview
Apache Beam是一个开源的统一编程模型,用于定义和执行并行数据处理管道。它的强大之处在于它能够同时运行批处理流和流式管道,并且由Beam支持的分布式处理后端之一执行:Apache Apex,Apache Flink,Apache Spark和Google Cloud Dataflow。 Apache Beam可用于ETL(提取,转换和加载)任务,如在不同存储介质和数据源之间移动数据,将数据转换为更理想的格式以及将数据加载到新系统中。 在这个有指导意义的现场培训(现场或远程)中,参与者将学习如何在Java或Python应用程序中实现Apache Beam SDK,该应用程序定义了一个数据处理管道,用于将大数据集分解为更小的块,以进行独立的并行处理。 在培训结束后,参与者将能够: 安装并配置Apache Beam。 使用单一编程模型来执行批处理和流处理,而不是使用其Java或Python应用程序。 在多个环境中执行管道。 听众 开发商 课程的格式 部分讲座,部分讨论,练习和沉重的练习 注意 此课程将在未来可用于Scala。请联系我们安排。
35 hours
Overview
KNIME is a free and open-source data analytics, reporting and integration platform. KNIME integrates various components for machine learning and data mining through its modular data pipelining concept. A graphical user interface and use of JDBC allows assembly of nodes blending different data sources, including preprocessing (ETL: Extraction, Transformation, Loading), for modeling, data analysis and visualization without, or with only minimal, programming. To some extent as advanced analytics tool KNIME can be considered as a SAS alternative.

Since 2006, KNIME has been used in pharmaceutical research, it also used in other areas like CRM customer data analysis, business intelligence and financial data analysis.
21 hours
Overview
Pivotal Greenplum is a Massively Parallel Processing (MPP) Data Warehouse platform based on PostgreSQL.

This instructor-led, live training (onsite or remote) is aimed at developers who wish to set up a multi-node Greenplum database.

By the end of this training, participants will be able to:

- Install and configure Pivotal Greenplum.
- Model data in accordance to current needs and future expansion plans.
- Carry out different techniques for distributing data across multiple nodes.
- Improve database performance through tuning.
- Monitor and troubleshoot a Greenplum database.

Format of the Course

- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.

Course Customization Options

- To request a customized training for this course, please contact us to arrange.
14 hours
Overview
该教师指导的现场或远程现场培训 (现场或远程) 的对象是希望使用 con流利 (卡夫卡分布) 为其应用程序建立和管理实时数据处理平台的工程师

到本次培训结束时, 学员将能够:

- 安装和配置并发平台
- 使用 "& #39; 的管理工具和服务, 更轻松地运行卡夫卡。
- 存储和处理传入的流数据。
- 优化和管理卡夫卡集群
。 - 保护数据流
课程 的

格式

- 互动讲座和讨论.
- 大量的练习和练习
- 在现场实验室环境中的实际实现。

课程自定义选项

- 本课程以开源版本的 "并发: 并发开源:
为基础。 - 要要求本课程的定制培训, 请联系我们安排
14 hours
Overview
本教师指导的现场培训 (现场或远程) 针对的是希望在使用 python 进行数据挖掘的数据分析技术方面实现更高级的数据分析技术的数据分析师和数据科学家。

到本次培训结束时, 学员将能够:

- 了解数据挖掘的重要领域, 包括关联规则挖掘、文本情绪分析、自动文本摘要和数据异常检测
。 - 比较并实施各种策略来解决实际数据挖掘问题。
- 理解和解释结果.
课程 的

格式

- 互动讲座和讨论.
- 大量的练习和练习
- 在现场实验室环境中的实际实现。

课程自定义选项

- 要要求本课程的定制培训, 请联系我们安排
大数据,培训,课程,培训课程, 企业大数据培训, 短期大数据培训, 大数据课程, 大数据周末培训, 大数据晚上培训, 大数据训练, 学习大数据, 大数据老师, 学大数据班, 大数据远程教育, 一对一大数据课程, 小组大数据课程, 大数据培训师, 大数据辅导班, 大数据教程, 大数据私教, 大数据辅导, 大数据讲师Big Data,培训,课程,培训课程, 企业Big Data培训, 短期Big Data培训, Big Data课程, Big Data周末培训, Big Data晚上培训, Big Data训练, 学习Big Data, Big Data老师, 学Big Data班, Big Data远程教育, 一对一Big Data课程, 小组Big Data课程, Big Data培训师, Big Data辅导班, Big Data教程, Big Data私教, Big Data辅导, Big Data讲师

促销课程

订阅促销课程

为尊重您的隐私,我公司不会把您的邮箱地址提供给任何人。您可以享有优先权和随时取消订阅的权利。

我们的客户

is growing fast!

We are looking to expand our presence in China!

As a Business Development Manager you will:

  • expand business in China
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!