Programming with Big Data in R 培训
Big Data是指用于存储和处理大型数据集的解决方案。最初由Go ogle开发,这些Big Data解决方案已经发展并激发了其他类似的项目,其中许多项目都是开源的。 R是金融行业中流行的编程语言。
课程大纲
Programming Big Data with R (bpdR) 简介
- 设置环境以使用 pbdR
- pbdR 中可用的范围和工具
- 通常与 Big Data 和 pbdR 一起使用的封装
消息传递接口 (MPI)
- 使用 pbdR MPI 5
- 并行处理
- 点对点通信
- 发送矩阵
- 求和矩阵
- 集体沟通
- 用Reduce对矩阵求和
- 分散/聚集
- 其他 MPI 通信
分布式矩阵
- 创建分布式对角矩阵
- 分布式矩阵的 SVD
- 并行构建分布式矩阵
Statistics 应用
- 蒙特卡罗积分
- 读取数据集
- 阅读所有流程
- 从一个进程进行广播
- 读取分区数据
- 分布式回归
- 分布式 Bootstrap
需要帮助选择合适的课程吗?
china@nobleprog.com 或拨打 400 6116 540
Programming with Big Data in R 培训 - Enquiry
Programming with Big Data in R - 问询
问询
客户评论 (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
课程 - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
课程 - Programming with Big Data in R
即将举行的公开课程
相关课程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 小时本课程面向希望在其应用程序中理解和实施人工智能的开发人员和数据科学家。 特别关注数据分析、分布式人工智能和自然语言处理。
Unified Batch and Stream Processing with Apache Beam
14 小时Apache Beam 是一个开源的统一程式设计模型,用于定义和执行并行数据处理管道。它的强大之处在于它能够同时运行批处理和流式管道,执行由 Beam 支援的分散式处理后端之一执行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 对于 ETL(提取、转换和载入)任务非常有用,例如在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式以及将数据载入到新系统。
在这个由讲师指导的现场培训(现场或远端)中,参与者将学习如何在 Java 或 Python 应用程式中实施 Apache Beam SDK,该应用程式定义了一个数据处理管道,用于将大数据集分解成更小的块,以进行独立的并行处理。
在本次培训结束时,参与者将能够:
- 安装和配置 Apache Beam。
- 使用单个程式设计模型从其 Java 或 Python 应用程式执行批处理和流处理。
- 跨多个环境执行管道。
课程形式
- 部分讲座、部分讨论、练习和大量动手实践
注意
- 本课程将在未来提供 Scala。请联系我们安排。
Data Vault:构建可扩展的数据仓库
28 小时在这个由 中国 讲师指导的现场培训中,参与者将学习如何构建 Data Vault。
在本次培训结束时,参与者将能够:
- 了解 Data Vault 2.0 背后的架构和设计概念,以及它与 Big Data、NoSQL 和 AI 的交互。
- 使用数据保险库技术对数据仓库中的历史数据进行审计、跟踪和检查。
- 开发一致且可重复的 ETL(提取、转换、载入)流程。
- 构建和部署高度可扩展且可重复的仓库。
Apache Flink Fundamentals
28 小时这个由 中国 的讲师指导式现场培训(在线或现场)介绍了分散式流和批处理数据处理背后的原理和方法,并引导参与者在 Apache Flink 中创建实时数据流应用程式。
在本次培训结束时,参与者将能够:
- 设置用于开发数据分析应用程式的环境。
- 了解 Apache Flink 的 图形处理库 (Gelly) 的工作原理。
- 打包、执行和监控基于 Flink 的容错数据流应用程式。
- 管理各种工作负载。
- 执行高级分析。
- 设置多节点 Flink 集群。
- 衡量和优化性能。
- 将 Flink 与不同的 Big Data 系统集成。
- 将 Flink 功能与其他大数据处理框架的功能进行比较。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Confluent KSQL
7 小时这个由 讲师指导的 中国 现场培训(在线或现场)面向希望在不编写代码的情况下实现 Apache Kafka 流处理的开发人员。
在本次培训结束时,参与者将能够:
- 安装和配置 Confluent KSQL。
- 仅使用 SQL 命令(无 Java 或 Python 编码)设置流处理管道。
- 完全在 SQL 中执行数据过滤、转换、聚合、连接、视窗化和会话化。
- 为流式 ETL 和即时分析设计和部署互动式连续查询。
Apache NiFi for Administrators
21 小时在这个以讲师为主导的中国现场或远端培训中,参与者将学习如何在实时实验室环境中部署和管理Apache NiFi。
在培训结束时,参与者将能够:
- 安装并配置 Apachi NiFi。
- 从不同的分散式数据源(包括资料库和大数据湖)中获取、转换和管理数据。
- 自动化数据流。
- 启用流分析。
- 应用各种方法进行数据引入。
- 转换 Big Data 并转化为业务洞察。
Apache NiFi for Developers
7 小时在这个由讲师指导的 中国 现场培训中,参与者将学习基于流程的程式设计的基础知识,因为他们使用 Apache NiFi 开发许多演示扩展、元件和处理器。
在培训结束时,参与者将能够:
- 了解 NiFi 的架构和数据流概念。
- 使用 NiFi 和第三方 API 开发扩展。
- 定制开发自己的Apache Nifi处理器。
- 从不同和不常见的档格式和数据源中摄取和处理实时数据。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Spark Streaming with Python and Kafka
7 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用Spark Streaming功能处理和分析实时数据的数据工程师,数据科学家和程序员。
在本次培训结束时,参与者将能够使用 Spark Streaming 处理实时数据流,以便在数据库、文件系统和实时仪表板中使用。
Introduction to Data Visualization with Tidyverse and R
7 小时Tidyverse是一系列多功能R包,用于清洁,处理,建模和可视化数据。包括的一些包是:ggplot2,dplyr,tidyr,readr,purrr和tibble。
在这个由讲师指导的实时培训中,参与者将学习如何使用Tidyverse包含的工具来操纵和可视化数据。
在培训结束时,参与者将能够:
- 执行数据分析并创建吸引人的可视化
- 从样本数据的各种数据集中得出有用的结论
- 过滤,排序和汇总数据以回答探索性问题
- 将处理过的数据转换为信息性线图,条形图,直方图
- 导入和过滤来自不同数据源的数据,包括Excel ,CSV和SPSS文件
听众
- 初学者到R语言
- 初学者进行数据分析和数据可视化
课程形式
- 部分讲座,部分讨论,练习和繁重的实践练习