课程大纲

详细的培训大纲

    NLP简介 了解 NLP NLP 框架 NLP的商业应用 从 Web 抓取数据 使用各种 API 检索文本数据 处理和存储文本语料库,保存内容和相关元数据 使用 Python 和 NLTK 速成班的优势 对语料库和数据集的实际理解 为什么我们需要语料库? 语料库分析 数据属性的类型 语料库的不同文件格式 为 NLP 应用程序准备数据集 理解句子的结构 NLP的组成部分 自然语言理解 形态学分析 - 词干、单词、标记、语音标签 句法分析 语义分析 处理歧义 文本数据预处理 语料库 - 原始文本 句子标记化 原始文本的词干提取 原始文本的引述 停用词删除 语料库原始句子 Word 代币化 Word 词形还原 使用 Term-Document/Document-Term 矩阵 将文本标记化为 n-gram 和句子 实用和定制的预处理 分析文本数据 NLP的基本特征 解析器和解析器 POS 标记和标记器 名称实体识别 N-gram 一袋字 NLP的统计特征 NLP 线性代数的概念 NLP的概率理论 TF-IDF型 矢 量化 编码器和解码器 正常化 概率模型 高级特征工程和 NLP word2vec 的基础知识 word2vec 模型的组件 word2vec 模型的逻辑 word2vec 概念的扩展 word2vec模型的应用 案例研究:词袋的应用:使用简化和真实的 Luhn 算法进行自动文本摘要 文档聚类、分类和主题建模 文档聚类和模式挖掘(分层聚类、k-means、聚类等) 使用 TFIDF、Jaccard 和余弦距离测量值对文档进行比较和分类 使用朴素贝叶斯和最大熵进行文档分类 识别重要的文本元素 降维:主成分分析、奇异值分解、非负矩阵分解 使用潜在语义分析进行主题建模和信息检索 实体提取、情感分析和高级主题建模 积极与消极:情绪程度 项目反应理论 词性标注及其应用:查找文本中提到的人物、地点和组织 高级主题建模:潜在狄利克雷分配 案例研究 挖掘非结构化用户评论 产品评论数据的情绪分类和可视化 挖掘使用模式的搜索日志 文本分类 主题建模

要求

对NLP 原理的了解和认识,以及对人工智能在商业中的应用的理解

  21 小时

人数



每位参与者的报价

客户评论 (2)

相关课程

Smart Robots for Developers

  84 小时

课程分类