课程大纲

NLP 相关软体包的 Python 概述

NLP 简介(当然是 Python 中的例子)

  1. 简单的文字操作
    1. 搜索文字
    2. 计数 Words
    3. 将文本拆分为 Words
    4. 词汇离散
  2. 处理复杂结构
    1. 在 Lists 中表示文本
    2. 索引清单
    3. 搭配
    4. 二元语法
    5. 频率分布
    6. 带有 Word 个的条件语句
    7. 比较 Word(startswith、endswith、isslow、isalpha 等)
  3. 自然语言理解
    1. Word 意义消歧义
    2. 代词解析
  4. 机器翻译(统计、基于规则、文字等)
  5. 习题

示例中 Python 中的 NLP

  1. Accessing 文本语料库和词汇资源
    1. 语料库的常见来源
    2. 条件频率分布
    3. 按流派计数 Word
    4. 创建自己的语料库
    5. 发音词典
    6. Shoebox 和 Toolbox 词典
    7. 意义和同义词
    8. 层次结构
    9. 词汇关系:Meronyms、Holonyms
    10. 语义相似性
  2. 处理原始文字
    1. 撬动
    2. 正在截断
    3. 提取字串的各部分
    4. Accessing individual charaters
    5. 搜寻、替换、拆分、联接、索引等...
    6. 使用正则表达式
    7. 检测单词模式
    8. 堵塞
    9. 分词化
    10. 文本规范化
    11. Word 分割(尤其是中文)
  3. 分类和标记 Words
    1. 标签为 Corpora
    2. 标记令牌
    3. 词性标签集
    4. Python 词典
    5. Words 到 Propertieis 的映射
    6. 自动标记
    7. 确定 Word 的类别(形态、句法、语义)
  4. 文字分类 (Machine Learning)
    1. 监督分类
    2. 句子分割
    3. 交叉验证
    4. 决策树
  5. 从文字中提取资讯
    1. 分块
    2. 叮叮当当
    3. 标签 vs 树木
  6. 分析句子结构
    1. 上下文自由语法
    2. 解析器
  7. 构建基于特征的语法
    1. 语法特征
    2. 处理特征结构
  8. 分析句子的含义
    1. 语义和逻辑
    2. 命题逻辑
    3. 一阶逻辑
    4. 话语语义
  9. 管理语言数据
    1. 资料格式(词典与文字)
    2. 元数据

要求

Python 的基础知识

 28 小时

客户评论 (1)

即将举行的公开课程

课程分类