From Data to Decision with Big Data and Predictive Analytics 培训
听众
如果您试图理解您可以访问或想要分析网络上可用的非结构化数据(如Twitter,链接等等),那么本课程适合您。
它主要针对需要选择哪些数据值得收集以及值得分析的决策者和人员。
它不是针对人们配置解决方案,但这些人将从大局中受益。
交货方式
在课程期间,代表们将获得大多数开源技术的工作示例。
讲座后将进行简短的讲座,参加者将进行简单的练习
使用的内容和软件
每次运行课程时都会更新所有使用的软件,因此我们会检查最新版本。
它涵盖了从获取,格式化,处理和分析数据的过程,以解释如何使用机器学习自动化决策制定过程。
课程大纲
快速概览
- 数据源
- 注意数据
- 推荐系统
- 目标 Marketing
数据类型
- 结构化与非结构化
- 静态与流式
- 态度、行为和人口统计数据
- 数据驱动型分析与用户驱动型分析
- 数据有效性
- 数据量、速度和种类
模型
- 建筑模型
- 统计模型
- 机器学习
数据分类
- 聚类
- kGroups, k-means, 最近邻
- 蚁群,鸟类成群结队
预测模型
- 决策树
- 支持向量机
- 朴素贝叶斯分类
- 神经网络
- 马尔可夫模型
- 回归
- 集成方法
王
- 效益/成本比
- 软件成本
- 开发成本
- 潜在优势
构建模型
- 数据准备 (MapReduce)
- 数据清理
- 选择方法
- 开发模型
- 测试模型
- 模型评估
- 模型部署和集成
开源和商业软件概述
- 选择 R-project 包
- Python 库
- Hadoop 和 Mahout
- 与大数据和分析相关的 Apache 项目
- 精选商业解决方案
- 与现有软件和数据源集成
要求
了解传统的数据管理和分析方法,如SQL、数据仓库、商业智能、OLAP等。了解基本统计和概率(均值、方差、概率、条件概率等......
需要帮助选择合适的课程吗?
From Data to Decision with Big Data and Predictive Analytics 培训 - Enquiry
From Data to Decision with Big Data and Predictive Analytics - 问询
问询
客户评论 (2)
内容,因为我觉得它非常有趣,并认为它会对我在大学的最后一年有所帮助。
Krishan - NBrown Group
课程 - From Data to Decision with Big Data and Predictive Analytics
机器翻译
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
课程 - From Data to Decision with Big Data and Predictive Analytics
即将举行的公开课程
相关课程
Unified Batch and Stream Processing with Apache Beam
14 小时Apache Beam 是一个开源的统一程式设计模型,用于定义和执行并行数据处理管道。它的强大之处在于它能够同时运行批处理和流式管道,执行由 Beam 支援的分散式处理后端之一执行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 对于 ETL(提取、转换和载入)任务非常有用,例如在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式以及将数据载入到新系统。
在这个由讲师指导的现场培训(现场或远端)中,参与者将学习如何在 Java 或 Python 应用程式中实施 Apache Beam SDK,该应用程式定义了一个数据处理管道,用于将大数据集分解成更小的块,以进行独立的并行处理。
在本次培训结束时,参与者将能够:
- 安装和配置 Apache Beam。
- 使用单个程式设计模型从其 Java 或 Python 应用程式执行批处理和流处理。
- 跨多个环境执行管道。
课程形式
- 部分讲座、部分讨论、练习和大量动手实践
注意
- 本课程将在未来提供 Scala。请联系我们安排。
Data Vault:构建可扩展的数据仓库
28 小时在这个由 中国 讲师指导的现场培训中,参与者将学习如何构建 Data Vault。
在本次培训结束时,参与者将能够:
- 了解 Data Vault 2.0 背后的架构和设计概念,以及它与 Big Data、NoSQL 和 AI 的交互。
- 使用数据保险库技术对数据仓库中的历史数据进行审计、跟踪和检查。
- 开发一致且可重复的 ETL(提取、转换、载入)流程。
- 构建和部署高度可扩展且可重复的仓库。
Apache Flink Fundamentals
28 小时这个由 中国 的讲师指导式现场培训(在线或现场)介绍了分散式流和批处理数据处理背后的原理和方法,并引导参与者在 Apache Flink 中创建实时数据流应用程式。
在本次培训结束时,参与者将能够:
- 设置用于开发数据分析应用程式的环境。
- 了解 Apache Flink 的 图形处理库 (Gelly) 的工作原理。
- 打包、执行和监控基于 Flink 的容错数据流应用程式。
- 管理各种工作负载。
- 执行高级分析。
- 设置多节点 Flink 集群。
- 衡量和优化性能。
- 将 Flink 与不同的 Big Data 系统集成。
- 将 Flink 功能与其他大数据处理框架的功能进行比较。
Generative & Predictive AI for Developers
21 小时这门由讲师主导的现场培训(线上或线下)旨在让中级开发人员学习如何使用预测分析和生成模型来构建人工智能驱动的应用程序。
培训结束时,参与者将能够:
- 了解预测性人工智能和生成模型的基本原理。
- 利用人工智能工具进行预测编码、预测和自动化。
- 实施LLM(大型语言模型)和变压器以进行文本和代码生成。
- 应用时间序列预测和基于人工智能的推荐。
- 针对实际应用开发和微调AI模型。
- 评估AI部署中的伦理考虑和最佳实践。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Introduction to Predictive AI
21 小时这种以讲师为主导的 中国(在线或现场)实时培训面向希望掌握预测 AI 基础知识的初级 IT 专业人员。
在培训结束时,参与者将能够:
- 了解预测 AI 及其应用的核心概念。
- 收集、清理和预处理数据以进行预测分析。
- 探索和可视化数据以发现见解。
- 建立基本的统计模型进行预测。
- 评估预测模型的性能。
- 将预测性 AI 概念应用于实际场景。
Confluent KSQL
7 小时这个由 讲师指导的 中国 现场培训(在线或现场)面向希望在不编写代码的情况下实现 Apache Kafka 流处理的开发人员。
在本次培训结束时,参与者将能够:
- 安装和配置 Confluent KSQL。
- 仅使用 SQL 命令(无 Java 或 Python 编码)设置流处理管道。
- 完全在 SQL 中执行数据过滤、转换、聚合、连接、视窗化和会话化。
- 为流式 ETL 和即时分析设计和部署互动式连续查询。
Apache NiFi for Administrators
21 小时在这个以讲师为主导的中国现场或远端培训中,参与者将学习如何在实时实验室环境中部署和管理Apache NiFi。
在培训结束时,参与者将能够:
- 安装并配置 Apachi NiFi。
- 从不同的分散式数据源(包括资料库和大数据湖)中获取、转换和管理数据。
- 自动化数据流。
- 启用流分析。
- 应用各种方法进行数据引入。
- 转换 Big Data 并转化为业务洞察。
Apache NiFi for Developers
7 小时在这个由讲师指导的 中国 现场培训中,参与者将学习基于流程的程式设计的基础知识,因为他们使用 Apache NiFi 开发许多演示扩展、元件和处理器。
在培训结束时,参与者将能够:
- 了解 NiFi 的架构和数据流概念。
- 使用 NiFi 和第三方 API 开发扩展。
- 定制开发自己的Apache Nifi处理器。
- 从不同和不常见的档格式和数据源中摄取和处理实时数据。
Predictive AI in DevOps: Enhancing Software Delivery
14 小时这种由讲师指导的<>本地(在线或现场)实时培训面向希望将预测性 AI 集成到其 DevOps 实践中的中级 DevOps 专业人员。
在培训结束时,参与者将能够:
- 实施预测分析模型,以预测和解决 DevOps 管道中的挑战。
- 利用 AI 驱动的工具增强监控和操作。
- 应用机器学习技术来改进软件交付工作流程。
- 设计 AI 策略以主动解决问题和优化。
- 在 DevOps 中了解使用 AI 的道德考虑因素。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Spark Streaming with Python and Kafka
7 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用Spark Streaming功能处理和分析实时数据的数据工程师,数据科学家和程序员。
在本次培训结束时,参与者将能够使用 Spark Streaming 处理实时数据流,以便在数据库、文件系统和实时仪表板中使用。