课程大纲

Python数据任务基础

  • 安装Python并设置开发环境
  • 语言基础:变量、数据类型、控制结构
  • 编写和运行简单的Python脚本

文件处理:CSV和Excel

  • 使用csv模块和Pandas读写CSV文件
  • 使用openpyxl/xlrd和Pandas处理Excel文件
  • 实践练习:自动化文件转换

Pandas入门

  • DataFrame基础:创建、索引、选择和过滤
  • 聚合和分组操作
  • 常见清理操作:缺失值、重复值和类型转换

Polars入门

  • Polars的概念及其与Pandas的性能对比
  • Polars中的基本DataFrame操作
  • 用例示例:何时选择Polars而非Pandas

高级数据转换(中级)

  • Pandas中的复杂连接、窗口函数和透视操作
  • 使用Polars进行高效数据处理
  • 链式操作和优化内存使用

使用Python进行流程自动化

  • 编写脚本以自动化重复数据任务和ETL步骤
  • 使用操作系统调度器或任务调度器调度脚本
  • 日志记录、错误处理和通知

脚本打包与最佳实践

  • 使用PyInstaller或类似工具创建可执行文件
  • 项目结构、虚拟环境和依赖管理
  • 版本控制基础和文档化工作流程

动手小项目

  • 端到端任务:读取原始文件,清理和转换数据,生成输出
  • 自动化工作流程并将其打包为可运行脚本或可执行文件
  • 基于同行反馈的回顾与改进

总结与下一步

要求

  • 对编程概念有基本了解或愿意学习
  • 能够使用命令行或终端进行包安装
  • 有使用电子表格(CSV/Excel)的经验

受众

  • 自动化数据任务的数据分析师和运营人员
  • 寻求轻量级ETL脚本的分析工程师
  • 对基于Python的实际数据工作流感兴趣的专业人士
 14 小时

客户评论 (5)

即将举行的公开课程

课程分类