课程大纲

详细培训大纲

  1. NLP简介
    • 理解NLP
    • NLP框架
    • NLP的商业应用
    • 从网路上抓取数据
    • 使用各种API获取文本数据
    • 处理和存储文本语料库,保存内容及相关元数据
    • 使用Python和NLTK速成课程的优势
  2. 语料库和数据集的实际理解
    • 为什么需要语料库?
    • 语料库分析
    • 数据属性的类型
    • 语料库的不同文件格式
    • 为NLP应用准备数据集
  3. 理解句子的结构
    • NLP的组成部分
    • 自然语言理解
    • 形态分析 - 词干、词、词元、词性标签
    • 句法分析
    • 语义分析
    • 处理歧义
  4. 文本数据预处理
    • 语料库 - 原始文本
      • 句子分词
      • 原始文本的词干提取
      • 原始文本的词元化
      • 停用词移除
    • 语料库 - 原始句子
      • Word分词
      • Word词元化
    • 处理术语-文件/文件-术语矩阵
    • 将文本分词为n-grams和句子
    • 实际和自定义的预处理
  5. 分析文本数据
    • NLP的基本特征
      • 解析器和解析
      • 词性标注和标注器
      • 命名实体识别
      • N-grams
      • 词袋模型
    • NLP的统计特征
      • NLP的线性代数概念
      • NLP的概率理论
      • TF-IDF
      • 向量化
      • 编码器和解码器
      • 正规化
      • 概率模型
    • 高级特征工程和NLP
      • word2vec基础
      • word2vec模型的组成部分
      • word2vec模型的逻辑
      • word2vec概念的扩展
      • word2vec模型的应用
    • 案例研究:词袋模型的应用:使用简化和真实的Luhn算法进行自动文本摘要
  6. 文件聚类、分类和主题建模
    • 文件聚类和模式挖掘(层次聚类、k-means聚类等)
    • 使用TFIDF、Jaccard和馀弦距离度量比较和分类文件
    • 使用朴素贝叶斯和最大熵进行文件分类
  7. 识别重要文本Element
    • 降维:主成分分析、奇异值分解、非负矩阵分解
    • 使用潜在语义分析进行主题建模和信息检索
  8. 实体提取、Sentiment Analysis和高级主题建模
    • 正面与负面:情感程度
    • 项目反应理论
    • 词性标注及其应用:查找文本中提到的人、地点和组织
    • 高级主题建模:潜在狄利克雷分配
  9. 案例研究
    • 挖掘非结构化用户评论
    • 产品评论数据的情感分类和可视化
    • 挖掘搜索日志以获取使用模式
    • 文本分类
    • 主题建模

要求

了解NLP原理,并认识AI在商业中的应用

 21 小时

客户评论 (1)

即将举行的公开课程

课程分类