《HanLP《自然语言处理入门》笔记.docx》由会员分享,可在线阅读,更多相关《HanLP《自然语言处理入门》笔记.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、HanLP自然语言处理入门笔记f(x) wx b 其中 w 以及 b 是函数的参数 而 x 是函数的自变量。不过模型并不包括详细的自变量x 因为自变量是由用户输入的。自变量 x 是一个特征向量 用来表示一个对象的特征。 特征 特征指的是事物的特点转化的数值。怎样挑选特征 怎样设计特征模板 这称作特征工程。特征越多 参数就越多 参数越多 模型就越复杂。 数据集 样本的集合在机器学习领域称作数据集 在自然语言处理领域称作语料库。 监视学习 假如数据集附带标准答案 y 那么此时的学习算法称作监视学习。学习一遍误差还不够小 需要反复学习、反复调整。此时的算法是一种迭代式的算法 每一遍学习称作一次迭代。
2、这种在有标签的数据集上迭代学习的经过称作训练。 无监视学习 假如我们只给机器做题 却不告诉它参考答案 机器仍然可以学到知识吗 可以 此时的学习称作无监视学习 而不含标准答案的数据集被称作无标注的数据集。无监视学习一般用于聚类以及降维 降维指的是将样本点从高维空间变换成低维空间的经过。 其他类型的机器学习算法 半监视学习 假如我们训练多个模型 然后对同一个实例执行预测 会得到多个结果。假如这些结果多数一致 那么可以将该实例以及结果放到一起作为新的训练样本 用力啊扩大训练集。这样的算法被称为半监视学习。强化学习 现实世界中的事物之间往往有很长的因果链 我们要正确地执行一系列彼此关联的决策 才能得到
3、最终的成果。这类问题往往需要一边预测 一边根据环境的反应规划下次决策。这类算法被称为强化学习。 1.5 语料库 中文分词语料库 中文分词语料库指的是 由人工正确切分的句子集合。以著名的1998年度?人民日报?语料库为例 先 有 通货膨胀 干扰 后 有 通货 紧缩 叫板。 词性标注语料库 它指的是切分并为每个词语制定一个词性的语料。仍然以?人民日报?语料库为例 迈向/v 充满/v 祈望/n 的/u 新/a 世纪/n -/w 一九九八年度/t 新年度/t 讲话/n 这里每个单词后面用斜杠隔开的就是词性标签。 命名实体识别语料库 这种语料库人工标注了文本内部制关心的实体名词和实体类别。比方?人民日报
4、?语料库中-共含有人名、地名以及机构名3种命名实体: 萨哈夫/nr 讲/v ,/w 伊拉克/ns 将/d 同/p 结合国/nt 销毁/v 伊拉克/ns 大规模/b 杀伤性/n 武器/n 十分/a 委员会/n /nt 继续/v 保持/v 合作/v 。/w 这个句子中的加粗词语分别是人名、地名以及机构名。中括号括起来的是复合词 我们可以观察到:有时候机构名以及地名复合起来会构成更长的机构名 这种构词法上的嵌套现象增加了命名实体识别的难度。 句法分析语料库 汉语中常用的句法分析语料库有CTB(Chinese Treebank 中文树库) 其中一个句子可视化后如下列图所示 中文单词上面的英文标签标示词
5、性 而箭头表示有语法联络的两个单词 详细是何种联络由箭头上的标签标示。 文本分类语料库 它指的是人工标注了所属分类的文章构成的语料库。 语料库的建立 语料库建立指的是构建一份语料库的经过 分为标准制定、人员培训与人工标注这三个阶段。针对不同类型的任务 人们开发出许多标注软件 其中比拟成熟的一款是brat 它支持词性标注、命名实体识别以及句法分析等任务。 1.6 开源工具 主流NLP工具比拟 另外 也研究过其他开源工程的原理 借鉴了其中优秀的设计。但毕竟还是自己写的代码讲得最清楚 所以综合以上各种考虑 最后选取了HanLP作为本书的实现。 Python接口 HanLP 的 Python 接口由
6、pyhanlp 包提供 其安装只需一句命令 $ pip install pyhanlp 1.7 总结 本章给出了人工智能、机器学习与自然语言处理的宏观缩略图与开展时间线。机器学习是人工智能的子集 而自然语言处理那么是人工智能与语言学、计算机科学的交集。这个交集固然小 它的难度却很大。为了实现理解自然语言这个宏伟目的 人们尝试了规那么系统 并最终开展到基于大规模语料库的统计学习系统。 在接下来的章节中 就让我们按照这种由易到难的开展规律去解决第一个NLP问题一中文分词。我们将先从规那么系统人手 介绍一些快而不准的算法 然后逐步进化到更加准确的统计模型。 1.8 GitHub工程 HanLP何晗?自然语言处理入门?笔记 工程持续更新中 目录 章节第 3 章 二元语法与中文分词第 4 章 隐马尔可夫模型与序列标注第 5 章 感悟机分类与序列标注第 6 章 条件随机场与序列标注第 7 章 词性标注第 8 章 命名实体识别第 9 章 信息抽取第 10 章 文本聚类第 11 章 文本分类第 12 章 依存句法分析第 13 章 深度学习与自然语言处理