联系我们

课程大纲

详细培训大纲

  1. 自然语言处理简介
    • 理解自然语言处理
    • 自然语言处理框架
    • 自然语言处理的商业应用
    • 从网页抓取数据
    • 使用各种API获取文本数据
    • 处理并存储文本语料库,保存内容及相关元数据
    • 使用Python和NLTK的速成课程的优势
  2. 语料库和数据集的实践理解
    • 为什么需要语料库?
    • 语料库分析
    • 数据属性的类型
    • 语料库的不同文件格式
    • 为自然语言处理应用准备数据集
  3. 句子结构的理解
    • 自然语言处理的组成部分
    • 自然语言理解
    • 形态分析 - 词干、单词、词元、词性标注
    • 句法分析
    • 语义分析
    • 处理歧义
  4. 文本数据预处理
    • 语料库 - 原始文本
      • 句子分词
      • 原始文本的词干提取
      • 原始文本的词形还原
      • 停用词去除
    • 语料库 - 原始句子
      • 单词分词
      • 单词词形还原
    • 处理词项-文档/文档-词项矩阵
    • 将文本分词为n-gram和句子
    • 实践与定制预处理
  5. 文本数据分析
    • 自然语言处理的基本特征
      • 解析器与解析
      • 词性标注与标注器
      • 命名实体识别
      • n-gram
      • 词袋模型
    • 自然语言处理的统计特征
      • 线性代数在自然语言处理中的应用
      • 概率论在自然语言处理中的应用
      • TF-IDF
      • 向量化
      • 编码器与解码器
      • 归一化
      • 概率模型
    • 高级特征工程与自然语言处理
      • word2vec基础
      • word2vec模型的组成部分
      • word2vec模型的逻辑
      • word2vec概念的扩展
      • word2vec模型的应用
    • 案例研究:词袋模型的应用:使用简化和真实Luhn算法进行自动文本摘要
  6. 文档聚类、分类与主题建模
    • 文档聚类与模式挖掘(层次聚类、k-means聚类等)
    • 使用TFIDF、Jaccard和余弦距离度量比较和分类文档
    • 使用朴素贝叶斯和最大熵进行文档分类
  7. 识别重要文本元素
    • 降维:主成分分析、奇异值分解、非负矩阵分解
    • 使用潜在语义分析进行主题建模与信息检索
  8. 实体提取、情感分析与高级主题建模
    • 正面与负面:情感程度
    • 项目反应理论
    • 词性标注及其应用:识别文本中提及的人、地点和组织
    • 高级主题建模:潜在狄利克雷分配
  9. 案例研究
    • 挖掘非结构化用户评论
    • 产品评论数据的情感分类与可视化
    • 挖掘搜索日志以获取使用模式
    • 文本分类
    • 主题建模

要求

了解自然语言处理的基本原理,并理解AI在业务中的应用。

 21 小时

客户评论 (1)

即将举行的公开课程

课程分类