课程大纲

介绍

安装和配置Dataiku Data Science Studio(DSS)

  • Dataiku DSS的系统要求。
  • 设置Apache Hadoop和Apache Spark集成。
  • 配置Dataiku DSS与Web代理。
  • 从其他平台迁移到Dataiku DSS。

Dataiku DSS功能和架构概述

  • Dataiku DSS的核心对象和图表。
  • Dataiku DSS中的“recipe”是什么?
  • Dataiku DSS支持的数据集类型。

创建Dataiku DSS项目

定义数据集以连接到Dataiku DSS中的数据资源

  • 使用DSS连接器和文件格式。
  • 标准DSS格式与Hadoop特定格式。
  • 为Dataiku DSS项目上传文件。

Dataiku DSS中的服务器文件系统概述

创建和使用管理文件夹

  • Dataiku DSS中的合并文件夹“recipe”。
  • 本地与非本地管理文件夹。

使用管理文件夹内容构建文件系统数据集

  • 使用DSS代码“recipe”进行清理。

使用指标数据集和内部统计数据集

为HTTP数据集实施DSS下载“recipe”

使用DSS重新定位SQL数据集和HDFS数据集

在Dataiku DSS中排序数据集

  • 写入排序与读取时间排序。

探索和准备Dataiku DSS项目的数据可视化

Dataiku模式、存储类型和含义概述

在Dataiku DSS中执行数据清洗、规范化和丰富化脚本

使用Dataiku DSS图表界面和视觉聚合类型

利用DSS的交互式统计功能

  • 单变量分析与双变量分析。
  • 使用主成分分析(PCA)DSS工具。

Dataiku DSS中的机器学习概述

  • 监督学习与非监督学习。
  • DSS ML算法和功能处理的参考。
  • 使用Dataiku DSS进行深度学习。

DSS数据集和“recipe”生成的流程概述

使用视觉“recipe”转换DSS中的现有数据集

使用基于用户定义代码的DSS“recipe”

使用DSS代码笔记本优化代码探索和实验

使用Webapps编写高级DSS可视化和自定义前端功能

使用Dataiku DSS代码报告功能

共享数据项目元素并熟悉DSS仪表板

将Dataiku DSS项目设计和打包为可重用应用程序

Dataiku DSS中的高级方法概述

  • 使用DSS实现优化数据集分区。
  • 通过Kubernetes容器中的计算执行特定DSS处理部分。

Dataiku DSS中的协作和版本控制概述

实施自动化场景、指标和检查以测试DSS项目

使用DSS自动化节点和捆绑包部署和更新项目

在Dataiku DSS中使用实时API

  • DSS中的附加API和Rest API。

分析和预测Dataiku DSS时间序列

在Dataiku DSS中保护项目

  • 管理项目权限和仪表板授权。
  • 实施高级安全选项。

将Dataiku DSS与云集成

故障排除

总结与结论

要求

  • 具备Python、SQL和R编程语言的经验。
  • 具备使用Apache Hadoop和Spark进行数据处理的基础知识。
  • 理解机器学习概念和数据模型。
  • 具备统计分析和数据科学概念的背景。
  • 具备数据可视化和沟通的经验。

受众

  • 工程师。
  • 数据科学家。
  • 数据分析师。
 21 小时

即将举行的公开课程

课程分类