课程大纲
介绍
安装和配置Dataiku Data Science Studio (DSS)
- Dataiku DSS的系统要求
- 设置Apache Hadoop和Apache Spark集成
- 配置Dataiku DSS与Web代理
- 从其他平台迁移到Dataiku DSS
Dataiku DSS功能和架构概述
- Dataiku DSS的核心对象和图表基础
- Dataiku DSS中的“配方”是什么?
- Dataiku DSS支持的数据集类型
创建Dataiku DSS项目
定义数据集以连接到Dataiku DSS中的数据资源
- 使用DSS连接器和文件格式
- 标准DSS格式与Hadoop特定格式对比
- 为Dataiku DSS项目上传文件
Dataiku DSS中的服务器文件系统概述
创建和使用托管文件夹
- Dataiku DSS的合并文件夹配方
- 本地与非本地托管文件夹
使用托管文件夹内容构建文件系统数据集
- 使用DSS代码配方执行清理操作
使用指标数据集和内部统计数据集
实现DSS下载配方以获取HTTP数据集
使用DSS重新定位SQL数据集和HDFS数据集
在Dataiku DSS中对数据集进行排序
- 写入顺序与读取时间顺序
探索和准备Dataiku DSS项目的数据可视化
Dataiku模式、存储类型和含义概述
在Dataiku DSS中执行数据清洗、规范化和丰富脚本
使用Dataiku DSS图表界面和可视化聚合类型
利用DSS的交互式统计功能
- 单变量分析与双变量分析
- 使用主成分分析(PCA)DSS工具
Dataiku DSS中的机器学习概述
- 监督学习与非监督学习
- DSS机器学习算法和特征处理参考
- 使用Dataiku DSS进行深度学习
Dataiku数据集和配方的流程概述
使用可视化配方转换DSS中的现有数据集
使用基于用户自定义代码的DSS配方
使用DSS代码笔记本优化代码探索和实验
使用Webapps编写高级DSS可视化和自定义前端功能
使用Dataiku DSS代码报告功能
共享数据项目元素并熟悉DSS仪表板
设计和打包Dataiku DSS项目为可重用应用程序
Dataiku DSS中的高级方法概述
- 使用DSS实现优化的数据集分区
- 通过Kubernetes容器中的计算执行特定DSS处理部分
Dataiku DSS中的协作和版本控制概述
为DSS项目测试实现自动化场景、指标和检查
使用DSS自动化节点和捆绑包部署和更新项目
在Dataiku DSS中使用实时API
- DSS中的附加API和Rest API
分析和预测Dataiku DSS时间序列
在Dataiku DSS中保护项目
- 管理项目权限和仪表板授权
- 实施高级安全选项
将Dataiku DSS与云集成
故障排除
总结与结论
要求
- 具备Python、SQL和R编程语言的使用经验
- 掌握使用Apache Hadoop和Spark进行数据处理的基础知识
- 理解机器学习概念和数据模型
- 具备统计分析和数据科学概念的背景
- 有数据可视化和沟通的经验
受众
- 工程师
- 数据科学家
- 数据分析师