课程大纲
介绍
安装和配置 Dataiku Data Science Studio (DSS)
- Dataiku DSS的系统要求
- 设置 Apache Hadoop 和 Apache Spark 集成
- 使用 Web 代理配置 Dataiku DSS
- 从其他平台迁移到Dataiku DSS
Dataiku DSS功能和架构概述
- Dataiku DSS基础的核心对象和图形
- Dataiku DSS中的食谱是什么?
- Dataiku DSS支持的数据集类型
创建 Dataiku DSS 项目
在Dataiku DSS中定义要连接到数据资源的数据集
- 使用 DSS 连接器和文件格式
- 标准 DSS 格式与 Hadoop 特定格式
- 上传Dataiku DSS项目的文件
Dataiku DSS中的服务器文件系统概述
创建和使用托管文件夹
- 用于合并文件夹的 Dataiku DSS 配方
- 本地与非本地托管文件夹
使用托管文件夹内容构造文件系统数据集
- 使用 DSS 代码配方执行清理
使用指标数据集和内部统计数据集
实现 HTTP 数据集的 DSS 下载配方
使用 DSS 重新定位 SQL 数据集和 HDFS 数据集
在Dataiku DSS中对数据集进行排序
- 编写器排序与读取时排序
探索和准备 Dataiku DSS 项目的数据视觉对象
Dataiku 架构、存储类型和含义概述
在Dataiku DSS中执行数据清洗、规范化和扩充脚本
使用 Dataiku DSS 图表界面和视觉聚合类型
利用 DSS 的交互式 Statistics 功能
- 单变量分析与双变量分析
- 使用主成分分析 (PCA) DSS 工具
Dataiku DSS的Machine Learning概述
- 监督式 ML 与无监督式 ML
- DSS ML 算法和特征处理参考
- Deep Learning 使用 Dataiku DSS
从 DSS 数据集和配方派生的流程概述
使用可视化配方转换 DSS 中的现有数据集
利用基于用户定义代码的 DSS 配方
使用 DSS 代码笔记本优化代码浏览和试验
使用 Web 应用程序编写高级 DSS 可视化和自定义前端功能
使用 Dataiku DSS 代码报告功能
共享数据项目 Element 并熟悉 DSS 仪表板
将 Dataiku DSS 项目设计并打包为可重用的应用程序
Dataiku DSS中的高级方法概述
- 使用 DSS 实现优化的数据集分区
- 通过在 Kubernetes 容器中的计算执行特定的 DSS 处理部件
Dataiku DSS 中的 Collaboration 和版本控制概述
为 DSS 项目测试实施自动化方案、指标和检查
使用 DSS Automation 节点和捆绑软件部署和更新项目
在Dataiku DSS中使用实时API
- DSS 中的其他 API 和 REST API
分析和 Forecasting Dataiku DSS 时间序列
在Dataiku DSS中保护项目
- 管理项目权限和仪表板授权
- 实施高级安全选项
将 Dataiku DSS 与云集成
故障 排除
总结和结论
要求
- 具有 Python、SQL 和 R 编程语言的经验
- 使用 Apache Hadoop 和 Spark 进行数据处理的基本知识
- 理解机器学习概念和数据模型
- 统计分析和数据科学概念背景
- 具有可视化和传达数据的经验
观众
- 工程师
- 数据科学家
- 数据分析师