课程大纲

介绍

安装和配置Dataiku Data Science Studio (DSS)

  • Dataiku DSS的系统要求
  • 设置Apache Hadoop和Apache Spark集成
  • 配置Dataiku DSS与Web代理
  • 从其他平台迁移到Dataiku DSS

Dataiku DSS功能和架构概述

  • Dataiku DSS的核心对象和图表基础
  • Dataiku DSS中的“配方”是什么?
  • Dataiku DSS支持的数据集类型

创建Dataiku DSS项目

定义数据集以连接到Dataiku DSS中的数据资源

  • 使用DSS连接器和文件格式
  • 标准DSS格式与Hadoop特定格式对比
  • 为Dataiku DSS项目上传文件

Dataiku DSS中的服务器文件系统概述

创建和使用托管文件夹

  • Dataiku DSS的合并文件夹配方
  • 本地与非本地托管文件夹

使用托管文件夹内容构建文件系统数据集

  • 使用DSS代码配方执行清理操作

使用指标数据集和内部统计数据集

实现DSS下载配方以获取HTTP数据集

使用DSS重新定位SQL数据集和HDFS数据集

在Dataiku DSS中对数据集进行排序

  • 写入顺序与读取时间顺序

探索和准备Dataiku DSS项目的数据可视化

Dataiku模式、存储类型和含义概述

在Dataiku DSS中执行数据清洗、规范化和丰富脚本

使用Dataiku DSS图表界面和可视化聚合类型

利用DSS的交互式统计功能

  • 单变量分析与双变量分析
  • 使用主成分分析(PCA)DSS工具

Dataiku DSS中的机器学习概述

  • 监督学习与非监督学习
  • DSS机器学习算法和特征处理参考
  • 使用Dataiku DSS进行深度学习

Dataiku数据集和配方的流程概述

使用可视化配方转换DSS中的现有数据集

使用基于用户自定义代码的DSS配方

使用DSS代码笔记本优化代码探索和实验

使用Webapps编写高级DSS可视化和自定义前端功能

使用Dataiku DSS代码报告功能

共享数据项目元素并熟悉DSS仪表板

设计和打包Dataiku DSS项目为可重用应用程序

Dataiku DSS中的高级方法概述

  • 使用DSS实现优化的数据集分区
  • 通过Kubernetes容器中的计算执行特定DSS处理部分

Dataiku DSS中的协作和版本控制概述

为DSS项目测试实现自动化场景、指标和检查

使用DSS自动化节点和捆绑包部署和更新项目

在Dataiku DSS中使用实时API

  • DSS中的附加API和Rest API

分析和预测Dataiku DSS时间序列

在Dataiku DSS中保护项目

  • 管理项目权限和仪表板授权
  • 实施高级安全选项

将Dataiku DSS与云集成

故障排除

总结与结论

要求

  • 具备Python、SQL和R编程语言的使用经验
  • 掌握使用Apache Hadoop和Spark进行数据处理的基础知识
  • 理解机器学习概念和数据模型
  • 具备统计分析和数据科学概念的背景
  • 有数据可视化和沟通的经验

受众

  • 工程师
  • 数据科学家
  • 数据分析师
 21 小时

即将举行的公开课程

课程分类