主页
大数据培训
Programming 与 Big Data 在 R 中的使用培训

Programming 与 Big Data 在 R 中的使用培训

(2 客户评论)

大数据是指用于存储和处理大规模数据集的解决方案。最初由谷歌开发，这些大数据解决方案已经发展并启发了其他类似项目，其中许多是开源的。R是金融行业中流行的编程语言。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

Programming Big Data with R （bpdR）简介

设置环境以使用 pbdR
pbdR 中可用的范围和工具
通常与 Big Data 和 pbdR 一起使用的封装

消息传递接口（MPI）

使用 pbdR MPI 5
并行处理
点对点通信
发送矩阵
求和矩阵
集体沟通
用Reduce对矩阵求和
分散/聚集
其他 MPI 通信

分布式矩阵

创建分布式对角矩阵
分布式矩阵的 SVD
并行构建分布式矩阵

Statistics 应用

蒙特卡罗积分
读取数据集
阅读所有流程
从一个进程进行广播
读取分区数据
分布式回归
分布式 Bootstrap

21 小时

需要帮助选择合适的课程吗？

Programming 与 Big Data 在 R 中的使用培训 - 询价

全名 *

邮件 *

电话 *

人数

公司名称

公司地址

您想以何种方式参加课程？

客户场所

线上

课堂

通知我有关折扣和促销的信息

请阅读我们的隐私政策，以了解我们如何使用您的数据。

Programming 与 Big Data 在 R 中的使用 - 问询

问询

全名 *

电话 *

邮件 *

公司名称

咨询主题 *

咨询目标

咨询师将会和什么人合作

紧急咨询服务 *

通知我有关折扣和促销的信息

请阅读我们的隐私政策，以了解我们如何使用您的数据。

客户评论 (2)

The subject matter and the pace were perfect.

Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.

Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

即将举行的公开课程

Programming 与 Big Data 在 R 中的使用

2025-11-20 09:30

21 小时

Beijing Pacific Century Place

Programming 与 Big Data 在 R 中的使用

2025-12-04 09:30

21 小时

Shanghai, Central Plaza

Programming 与 Big Data 在 R 中的使用

2025-12-18 09:30

21 小时

Shanghai, Henderson 688

Programming 与 Big Data 在 R 中的使用

2026-01-01 09:30

21 小时

Guangdong - Guangdong International Building

Programming 与 Big Data 在 R 中的使用

2026-01-15 09:30

21 小时

Shenzhen, Futian New World Centre

Programming 与 Big Data 在 R 中的使用

2026-01-29 09:30

21 小时

Tianjin Centre

使用Google Colab和Apache Spark进行大数据分析

14 小时

本课程为讲师指导的培训，在中国（线上或线下）进行，面向希望使用Google Colab和Apache Spark进行大数据处理和分析的中级数据科学家和工程师。

通过本课程，学员将能够：

使用Google Colab和Spark搭建大数据环境。
利用Apache Spark高效处理和分析大型数据集。
在协作环境中可视化大数据。
将Apache Spark与基于云的工具集成。

健康领域的大数据分析

21 小时

大数据分析涉及检查大量多样化数据集的过程，以揭示相关性、隐藏模式和其他有用的见解。

健康行业拥有大量复杂的异构医疗和临床数据。将大数据分析应用于健康数据，在改善医疗保健服务方面具有巨大潜力。然而，这些数据集的庞大规模对分析和在临床环境中的实际应用提出了巨大挑战。

在这个由讲师指导的远程培训中，学员将通过一系列实践操作练习，学习如何在健康领域进行大数据分析。

培训结束后，学员将能够：

安装和配置大数据分析工具，如Hadoop MapReduce和Spark
理解医疗数据的特征
应用大数据技术处理医疗数据
在健康应用的背景下研究大数据系统和算法

受众

开发者
数据科学家

课程形式

部分讲座，部分讨论，练习和大量实践操作。

注意

如需为本课程定制培训，请联系我们安排。

Hadoop 和 Spark 管理员培训

35 小时

这种由讲师指导的中国现场培训（现场或远程）针对的是希望学习如何在组织内设置，部署和管理Hadoop集群的系统管理员。

在培训结束时，参与者将能够：

安装和配置 Apache Hadoop。
了解 Hadoop 生态系统中的四个主要组件：HDFS、MapReduce、YARN 和 Hadoop Common。
使用 Hadoop 分布式文件系统（HDFS）将集群扩展到数百或数千个节点。
将 HDFS 设置为本地 Spark 部署的存储引擎。
设置 Spark 以访问替代存储解决方案，例如 Amazon S3 和 NoSQL 数据库系统，例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
执行管理任务，例如配置、管理、监控和保护 Apache Hadoop 集群。

流处理的实用介绍

21 小时

在这个由讲师指导的线下或远程培训中，参与者将学习如何设置和集成不同的流处理框架与现有的大数据存储系统及相关软件应用和微服务。

通过本培训，参与者将能够：

安装和配置不同的流处理框架，如Spark Streaming和Kafka Streaming。
理解并选择最适合的框架。
以连续、并发和逐条记录的方式处理数据。
将流处理解决方案与现有数据库、数据仓库、数据湖等集成。
将最合适的流处理库与企业应用和微服务集成。

SMACK Stack 数据科学

14 小时

本次讲师指导的培训在中国（线上或线下）面向希望使用 SMACK 技术栈构建大数据解决方案的数据科学家。

培训结束后，参与者将能够：

实现用于处理大数据的数据管道架构。
使用 Apache Mesos 和 Docker 开发集群基础设施。
使用 Spark 和 Scala 分析数据。
使用 Apache Cassandra 管理非结构化数据。

Apache Spark基础

21 小时

这种以讲师为主导的中国现场培训（现场或远程）针对的是希望建立和部署Apache Spark系统以处理大量数据的工程师。

在培训结束时，参与者将能够：

安装和配置 Apache Spark。
快速处理和分析非常大的数据集。
了解Apache Spark和Hadoop MapReduce之间的区别，以及何时使用哪个。
将 Apache Spark 与其他机器学习工具集成。

Apache Spark 管理

35 小时

这种由讲师指导的现场培训中国（远程或远程）面向希望部署、维护和优化 Spark 集群的初级到中级系统管理员。

在培训结束时，参与者将能够：

在各种环境中安装和配置 Apache Spark。
管理群集资源并监视 Spark 应用程序。
优化Spark集群性能。
实施安全措施并确保高可用性。
调试和排查常见的 Spark 问题。

Apache Spark 云端应用

21 小时

Apache Spark的学习曲线在开始时较为平缓，但需要付出大量努力才能获得初步回报。本课程旨在帮助学员跳过最初的学习难关。完成本课程后，学员将掌握Apache Spark的基础知识，能够清晰区分RDD与DataFrame，学习Python和Scala API，理解执行器和任务等。此外，课程还将遵循最佳实践，重点关注云部署、Databricks和AWS。学员还将了解AWS EMR与AWS Glue之间的区别，后者是AWS最新的Spark服务之一。

受众：

数据工程师、DevOps、数据科学家

Spark for Developers

21 小时

目标：

本课程将介绍Apache Spark。学员将了解Spark如何融入大数据生态系统，以及如何使用Spark进行数据分析。课程涵盖Spark shell的交互式数据分析、Spark内部机制、Spark API、Spark SQL、Spark流处理、机器学习和GraphX。

受众：

开发者/数据分析师

使用Spark NLP扩展数据管道

14 小时

这种由讲师指导的中国现场培训（在线或现场）面向希望使用 Spark NLP（基于 Apache Spark 构建）来开发、实施和扩展自然语言文本处理模型和管道的数据科学家和开发人员。

在本次培训结束时，参与者将能够：

设置必要的开发环境以开始使用 Spark NLP 构建 NLP 管道。
了解使用 Spark NLP 的功能、架构和优势。
使用 Spark NLP 中提供的预训练模型来实现文本处理。
了解如何为生产级项目构建、训练和扩展 Spark NLP 模型。
对实际使用案例（临床数据、客户行为洞察等）应用分类、推理和情绪分析。

用Spark和Python通过PySpark处理大数据

21 小时

在这个由讲师指导的中国现场培训中，参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。

在培训结束时，参与者将能够：

了解如何将 Spark 与 Python 结合使用来分析 Big Data。
进行模仿真实世界案例的练习。
使用 PySpark 使用不同的工具和技术进行大数据分析。

Python、Spark和Hadoop在大数据中的应用

21 小时

这种以讲师为主导的中国现场培训（现场或远程）针对希望使用和集成Spark，Hadoop和Python以处理，分析和转换大型复杂数据集的开发人员。

在培训结束时，参与者将能够：

设置必要的环境以开始使用 Spark、Hadoop 和 Python 处理大数据。
了解 Spark 和 Hadoop 的功能、核心组件和架构。
了解如何集成 Spark、Hadoop 和 Python 进行大数据处理。
探索 Spark 生态系统中的工具（Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume）。
构建类似于 Netflix、YouTube、Amazon、Spotify 和 Google 的协作过滤推荐系统。
使用 Apache Mahout 扩展机器学习算法。

Apache Spark SQL

7 小时

Spark SQL 是 Apache Spark 中用于处理结构化和非结构化数据的模块。Spark SQL 提供了关于数据结构以及正在执行的计算的信息。这些信息可用于执行优化。Spark SQL 的两个常见用途是：
- 执行 SQL 查询。
- 从现有的 Hive 安装中读取数据。

在这个由讲师指导的线下或远程培训中，参与者将学习如何使用 Spark SQL 分析各种类型的数据集。

培训结束时，参与者将能够：

安装和配置 Spark SQL。
使用 Spark SQL 进行数据分析。
查询不同格式的数据集。
可视化数据和查询结果。

课程形式

互动讲座和讨论。
大量练习和实践。
在实时实验室环境中进行实际操作。

课程定制选项

如需为此课程定制培训，请联系我们安排。

Stratio: Rocket and Intelligence Modules with PySpark

14 小时

Stratio 是一个以数据为中心的平台，将大数据、人工智慧和治理整合到单一解决方案中。其 Rocket 和 Intelligence 模组使企业环境中的数据探索、转换和高级分析变得迅速。

这是一个由讲师指导的培训（线上或线下），针对希望有效使用 Stratio 中 Rocket 和 Intelligence 模组的中级数据专业人员，重点关注循环结构、用户自定义函数和高级数据逻辑。

在培训结束时，参与者将能够：

使用 Rocket 和 Intelligence 模组在 Stratio 平台中导航和工作。
在数据撷取、转换和分析的背景下应用 PySpark。
使用循环和条件逻辑来控制数据工作流和特征工程任务。
创建和管理用户自定义函数 (UDFs)，以在 PySpark 中进行可重用的数据操作。

课程形式

互动式讲座和讨论。
大量练习和实践。
在实时实验室环境中进行实践操作。

课程定制选项

如需为此课程请求定制培训，请联系我们安排。

使用 Tidyverse 和 R 进行数据可视化简介

7 小时

受众

课程形式

通过本次培训，参与者将能够：

在这次由讲师主导的线下培训中，参与者将学习如何使用Tidyverse中包含的工具来操作和可视化数据。

Tidyverse是一组多功能R包，用于数据清理、处理、建模和可视化。包含的一些包有：ggplot2、dplyr、tidyr、readr、purrr和tibble。

R语言初学者
数据分析和数据可视化初学者

部分讲座、部分讨论、练习和大量动手实践

进行数据分析并创建吸引人的可视化效果
从各种样本数据集中得出有用的结论
过滤、排序和汇总数据以回答探索性问题
将处理后的数据转换为信息丰富的线图、条形图、直方图
从不同的数据源（包括Excel、CSV和SPSS文件）导入和过滤数据

Programming 与 Big Data 在 R 中的使用培训

课程大纲

Programming Big Data with R （bpdR）简介

消息传递接口（MPI）

分布式矩阵

Statistics 应用

客户评论 (2)

Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

即将举行的公开课程

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

课程分类

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Programming 与 Big Data 在 R 中的使用 培训

课程大纲

Programming Big Data with R （bpdR） 简介

消息传递接口 （MPI）

分布式矩阵

Statistics 应用

客户评论 (2)

Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada

课程 - Programming with Big Data in R

即将举行的公开课程

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

Programming 与 Big Data 在 R 中的使用

相关课程

使用Google Colab和Apache Spark进行大数据分析

健康领域的大数据分析

Hadoop 和 Spark 管理员培训

流处理的实用介绍

SMACK Stack 数据科学

Apache Spark基础

Apache Spark 管理

Apache Spark 云端应用

Spark for Developers

目标：

受众：

使用Spark NLP扩展数据管道

用Spark和Python通过PySpark处理大数据

Python、Spark和Hadoop在大数据中的应用

Apache Spark SQL

Stratio: Rocket and Intelligence Modules with PySpark

使用 Tidyverse 和 R 进行数据可视化简介

课程分类

大数据

R语言

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Programming 与 Big Data 在 R 中的使用培训

Programming Big Data with R （bpdR）简介

消息传递接口（MPI）