Apache Arrow for Data Analysis across Disparate Data Sources培训

课程编码

arrow

课程时长

14 小时 通常来说是2天,包括中间休息。

要求

  • A basic undersanding of SQL
  • Familiarity with Python or R
  • Some familiarity with Apache Spark

课程概览

Apache Arrow是一个开源的内存数据处理框架。它通常与其他数据科学工具一起用于访问不同的数据存储以进行分析。它与其他技术完美集成,如GPU数据库,机器学习库和工具,执行引擎和数据可视化框架。

在这个现场讲师指导的现场培训中,参与者将学习如何将Apache Arrow与各种Data Science框架集成,以访问来自不同数据源的数据。

在培训结束时,参与者将能够:

  • 在分布式群集环境中安装和配置Apache Arrow
  • 使用Apache Arrow访问来自不同数据源的数据
  • 使用Apache Arrow可以避免构建和维护复杂ETL管道的需要
  • 分析不同数据源中的数据,而无需将其整合到集中式存储库中

听众

  • 数据科学家
  • 数据工程师

课程 格式

  • 部分讲座,部分讨论,练习和繁重的实践练习

注意

  • 要申请本课程的定制培训,请联系我们安排。

Machine Translated

课程大纲

Introduction

  • Apache Arrow vs Parquet

Installing and Configuring Apache Arrow

Overview of Apache Arrow Features and Architecture

Exploring Data with Pandas and Apache Arrow

Exploring Data with Spark and Apache Arrow

Exploring Data with R and Apache Arrow

Exploring Data with MapD and Apache Arrow

Other Data Analysis Integrations

  • PySpark, Parquet files on S3, and Oracle tables and Elasticsearch indices

Troubleshooting

Summary and Conclusion

客户评论

★★★★★
★★★★★

课程分类

相关课程

促销课程

订阅促销课程

为尊重您的隐私,我公司不会把您的邮箱地址提供给任何人。您可以享有优先权和随时取消订阅的权利。

我们的客户

is growing fast!

We are looking to expand our presence in China!

As a Business Development Manager you will:

  • expand business in China
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!

该网站在其他国家/地区