课程大纲

第一天:语言基础

  • 课程介绍
  • 关于数据科学
    • 数据科学的定义
    • 数据科学的流程
  • R语言介绍
  • 变量与类型
  • 控制结构(循环/条件语句)
  • R标量、向量和矩阵
    • 定义R向量
    • 矩阵
  • 字符串与文本操作
    • 字符数据类型
    • 文件输入输出
  • 列表
  • 函数
    • 函数介绍
    • 闭包
    • lapply/sapply函数
  • 数据框
  • 各部分的实验

第二天:中级R编程

  • 数据框与文件输入输出
  • 从文件读取数据
  • 数据准备
  • 内置数据集
  • 可视化
    • 图形包
    • plot()/barplot()/hist()/boxplot()/散点图
    • 热力图
    • ggplot2包(qplot(), ggplot())
  • 使用Dplyr进行探索
  • 各部分的实验

第三天:R高级编程

  • 使用R进行统计建模
    • 统计函数
    • 处理NA值
    • 分布(二项式、泊松、正态)
  • 回归分析
    • 线性回归介绍
  • 推荐系统
  • 文本处理(tm包/词云)
  • 聚类分析
    • 聚类介绍
    • K均值聚类
  • 分类
    • 分类介绍
    • 朴素贝叶斯
    • 决策树
    • 使用caret包进行训练
    • 算法评估
  • R与大数据
    • 将R连接到数据库
    • 大数据生态系统
  • 各部分的实验

要求

  • 具备基本的编程背景为佳

设置

  • 一台现代笔记本电脑
  • 安装最新版本的R Studio和R环境
 21 小时

客户评论 (7)

即将举行的公开课程

课程分类