课程大纲
介绍
安装和配置Dataiku Data Science Studio(DSS)
- Dataiku DSS的系统要求。
- 设置Apache Hadoop和Apache Spark集成。
- 配置Dataiku DSS与Web代理。
- 从其他平台迁移到Dataiku DSS。
Dataiku DSS功能和架构概述
- Dataiku DSS的核心对象和图表。
- Dataiku DSS中的“recipe”是什么?
- Dataiku DSS支持的数据集类型。
创建Dataiku DSS项目
定义数据集以连接到Dataiku DSS中的数据资源
- 使用DSS连接器和文件格式。
- 标准DSS格式与Hadoop特定格式。
- 为Dataiku DSS项目上传文件。
Dataiku DSS中的服务器文件系统概述
创建和使用管理文件夹
- Dataiku DSS中的合并文件夹“recipe”。
- 本地与非本地管理文件夹。
使用管理文件夹内容构建文件系统数据集
- 使用DSS代码“recipe”进行清理。
使用指标数据集和内部统计数据集
为HTTP数据集实施DSS下载“recipe”
使用DSS重新定位SQL数据集和HDFS数据集
在Dataiku DSS中排序数据集
- 写入排序与读取时间排序。
探索和准备Dataiku DSS项目的数据可视化
Dataiku模式、存储类型和含义概述
在Dataiku DSS中执行数据清洗、规范化和丰富化脚本
使用Dataiku DSS图表界面和视觉聚合类型
利用DSS的交互式统计功能
- 单变量分析与双变量分析。
- 使用主成分分析(PCA)DSS工具。
Dataiku DSS中的机器学习概述
- 监督学习与非监督学习。
- DSS ML算法和功能处理的参考。
- 使用Dataiku DSS进行深度学习。
DSS数据集和“recipe”生成的流程概述
使用视觉“recipe”转换DSS中的现有数据集
使用基于用户定义代码的DSS“recipe”
使用DSS代码笔记本优化代码探索和实验
使用Webapps编写高级DSS可视化和自定义前端功能
使用Dataiku DSS代码报告功能
共享数据项目元素并熟悉DSS仪表板
将Dataiku DSS项目设计和打包为可重用应用程序
Dataiku DSS中的高级方法概述
- 使用DSS实现优化数据集分区。
- 通过Kubernetes容器中的计算执行特定DSS处理部分。
Dataiku DSS中的协作和版本控制概述
实施自动化场景、指标和检查以测试DSS项目
使用DSS自动化节点和捆绑包部署和更新项目
在Dataiku DSS中使用实时API
- DSS中的附加API和Rest API。
分析和预测Dataiku DSS时间序列
在Dataiku DSS中保护项目
- 管理项目权限和仪表板授权。
- 实施高级安全选项。
将Dataiku DSS与云集成
故障排除
总结与结论
要求
- 具备Python、SQL和R编程语言的经验。
- 具备使用Apache Hadoop和Spark进行数据处理的基础知识。
- 理解机器学习概念和数据模型。
- 具备统计分析和数据科学概念的背景。
- 具备数据可视化和沟通的经验。
受众
- 工程师。
- 数据科学家。
- 数据分析师。