课程大纲

介绍

了解 Hadoop 的体系结构和关键概念

了解 Hadoop 分布式文件系统 (HDFS)

    HDFS 及其架构设计概述 与 HDFS 交互 在HDFS上执行基本文件操作 HDFS命令参考概述 蛇咬伤概述 安装 Snakebite 使用 Snakebite 客户端库 使用 CLI 客户端

使用 Python 学习 MapReduce 编程模型

    MapReduceProgramming模型概述 了解MapReduce框架中的数据流 地图 随机播放和排序 减少
使用 Hadoop 流式处理实用程序 了解 Hadoop 流式处理实用程序的工作原理
  • 演示:在 Python 上实现 WordCount 应用程序
  • 使用 mrjob 库 mrjob 概述
  • 安装 mrjob
  • 演示:使用 mrjob 实现 WordCount 算法
  • 了解使用 mrjob 库编写的 MapReduce 作业的工作原理
  • 使用 mrjob 执行 MapReduce 应用程序
  • 动手实践:使用 mrjob 计算最高工资
  • 用 Python 学习猪
  • 猪概述 演示:在 Pig 中实现 WordCount 算法 配置和运行 Pig 脚本和 Pig 语句 使用 Pig 执行模式 使用 Pig 交互模式 使用 Pic 批处理模式
  • 了解猪拉丁语的基本概念 using 语句

      加载数据
    转换数据
  • 存储数据
  • 使用 Python 个 UDF 扩展 Pig 的功能 注册 Python UDF 文件
  • 演示:一个简单的 Python UDF
  • 演示:使用 Python UDF 进行字符串操作
  • 动手实践:使用 Python UDF 计算最近的 10 部电影
  • 使用 Spark 和 PySpark
  • Spark概述 演示:在 PySpark 中实现 WordCount 算法 PySpark 概述 使用交互式 Shell 实现独立应用程序
  • 使用弹性分布式数据集 (RDD) 从 Python 集合创建 RDD
  • 从文件创建 RDD
  • 实现 RDD 转换

      实现 RDD 操作
    动手实践:使用 PySpark 实现电影字幕的文本 Search 程序
  • 使用 Python 管理工作流
  • Apache Oozie 和 Luigi 概述 安装 Luigi 了解 Luigi 工作流概念 任务 目标 参数
  • 演示:检查实现 WordCount 算法的工作流
  • 使用 Hadoop 控制 MapReduce 和 Pig 作业的工作流 使用 Luigi 的配置文件
  • 在Luigi中使用MapReduce
  • 在路易吉与猪一起工作
  • 总结和结论

    要求

    • 具有 Python 编程经验
    • 基本熟悉 Hadoop
     28 小时

    人数



    每位参与者的报价

    客户评论 (3)

    相关课程

    课程分类