课程大纲

介绍

安装和配置 Dataiku Data Science Studio (DSS)

  • Dataiku DSS的系统要求
  • 设置 Apache Hadoop 和 Apache Spark 集成
  • 使用 Web 代理配置 Dataiku DSS
  • 从其他平台迁移到Dataiku DSS

Dataiku DSS功能和架构概述

  • Dataiku DSS基础的核心对象和图形
  • Dataiku DSS中的食谱是什么?
  • Dataiku DSS支持的数据集类型

创建 Dataiku DSS 项目

在Dataiku DSS中定义要连接到数据资源的数据集

  • 使用 DSS 连接器和文件格式
  • 标准 DSS 格式与 Hadoop 特定格式
  • 上传Dataiku DSS项目的文件

Dataiku DSS中的服务器文件系统概述

创建和使用托管文件夹

  • 用于合并文件夹的 Dataiku DSS 配方
  • 本地与非本地托管文件夹

使用托管文件夹内容构造文件系统数据集

  • 使用 DSS 代码配方执行清理

使用指标数据集和内部统计数据集

实现 HTTP 数据集的 DSS 下载配方

使用 DSS 重新定位 SQL 数据集和 HDFS 数据集

在Dataiku DSS中对数据集进行排序

  • 编写器排序与读取时排序

探索和准备 Dataiku DSS 项目的数据视觉对象

Dataiku 架构、存储类型和含义概述

在Dataiku DSS中执行数据清洗、规范化和扩充脚本

使用 Dataiku DSS 图表界面和视觉聚合类型

利用 DSS 的交互式 Statistics 功能

  • 单变量分析与双变量分析
  • 使用主成分分析 (PCA) DSS 工具

Dataiku DSS的Machine Learning概述

  • 监督式 ML 与无监督式 ML
  • DSS ML 算法和特征处理参考
  • Deep Learning 使用 Dataiku DSS

从 DSS 数据集和配方派生的流程概述

使用可视化配方转换 DSS 中的现有数据集

利用基于用户定义代码的 DSS 配方

使用 DSS 代码笔记本优化代码浏览和试验

使用 Web 应用程序编写高级 DSS 可视化和自定义前端功能

使用 Dataiku DSS 代码报告功能

共享数据项目 Element 并熟悉 DSS 仪表板

将 Dataiku DSS 项目设计并打包为可重用的应用程序

Dataiku DSS中的高级方法概述

  • 使用 DSS 实现优化的数据集分区
  • 通过在 Kubernetes 容器中的计算执行特定的 DSS 处理部件

Dataiku DSS 中的 Collaboration 和版本控制概述

为 DSS 项目测试实施自动化方案、指标和检查

使用 DSS Automation 节点和捆绑软件部署和更新项目

在Dataiku DSS中使用实时API

  • DSS 中的其他 API 和 REST API

分析和 Forecasting Dataiku DSS 时间序列

在Dataiku DSS中保护项目

  • 管理项目权限和仪表板授权
  • 实施高级安全选项

将 Dataiku DSS 与云集成

故障 排除

总结和结论

要求

  • 具有 Python、SQL 和 R 编程语言的经验
  • 使用 Apache Hadoop 和 Spark 进行数据处理的基本知识
  • 理解机器学习概念和数据模型
  • 统计分析和数据科学概念背景
  • 具有可视化和传达数据的经验

观众

  • 工程师
  • 数据科学家
  • 数据分析师
 21 小时

人数



每位参与者的报价

相关课程

课程分类