【NLP】自然语言处理完整流程-精品文档资料整理.docx-淘文阁

资源描述

《【NLP】自然语言处理完整流程-精品文档资料整理.docx》由会员分享，可在线阅读，更多相关《【NLP】自然语言处理完整流程-精品文档资料整理.docx（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、【NLP】自然语言处理完整流程第一步获取语料语料即语言材料是构成语料库的根本单元。所以人们简单地用文本作为替代并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库 Corpus 当有几个这样的文本集合的时候我们称之为语料库集合(Corpora)。定义来源百度百科按语料来源我们将语料分为以下两种 1、已有语料纸质或电子文本资料 ?电子化 ?语料库。 2、网上下载、抓取语料国内外标准开放数据集比方国内的中文汉语有搜狗语料、人民日报语料或者通过爬虫。第二步语料预处理语料预处理大概会占到整个50%-70%的工作量。根本经

2、过数据清洗 ?分词 ?词性标注 ?去停词 1、语料清洗语料清洗在语料中找到感兴趣的内容将不感兴趣、视为噪音的内容清洗删除。包括对于原始文本提取标题、摘要、正文等信息对于爬虫去除广告、标签、HTML、JS等代码以及注释。常见数据清洗方式人工去重、对齐、删除以及标注等或者规那么提取内容、正那么表达式匹配、根据词性以及命名实体提取编写脚本或者代码批处理等。 2、分词分词将短文本以及长文本处理为最小单位粒度是词或者词语的经过。常见方法基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于规那么的分词方法其中每种方法下面对应许多详细的方法。难点歧义识

3、别以及新词识别。 eg “羽毛球拍卖完了这个可以切分成“羽毛球拍卖完了可以切分成“羽毛球拍卖完了 ?上下文信息 3、词性标注词性标注对每个词或者词语打词类标签是一个经典的序列标注问题。eg 形容词、动词、名词等。有助于在后面的处理中融入更多有用的语言信息。词性标注不是非必需的。比方常见的文本分类就不用关心词性问题但是类似情感分析、知识推理却是需要的下列图是常见的中文词性整理。常见方法基于规那么以及基于统计的方法。基于统计的方法基于最大熵的词性标注、基于统计最大概率输出词性以及基于 HMM 的词性标注。 4、去停用词停用词对文本特征没有任何奉献的字

4、词 eg 标点符号、语气、人称等。注意根据详细场景决定。eg 在情感分析中语气词、感慨号是应该保存的因为他们对表示语气程度、感情色彩有一定的奉献以及意义。三、特征工程怎样把分词之后的字以及词语表示成计算机可以计算的类型。思路中文分词的字符串 ? 向量两种常用表示模型词袋模型 BoW 词向量 1、词袋模型 BoW 词袋模型 Bag of Word, BOW) 不考虑词语本来在句子中的顺序直接将每一个词语或符号统一放置在一个集合如 list 然后按照计数的方式对出现的次数进展统计。统计词频这只是最根本的方式 TF-IDF 是词袋模型的一个经典用法。 2、词向量词向量将字

5、、词语转换为向量矩阵的计算模型。常用的词表示方法 One-Hot 把每个词表示为一个很长的向量。这个向量的维度是词表大小其中绝大多数元素为 0 只有一个维度的值为 1 这个维度就代表了当前的词。eg: 0 0 0 0 0 0 0 0 1 0 0 0 0 . 0Word2Vec 其主要包含两个模型跳字模型 Skip-Gram 以及连续词袋模型 Continuous Bag of Words 简称 CBOW 和两种高效训练的方法负采样 Negative Sampling 以及层序 Softmax Hierarchical Softmax 。值得一提的是 Word2Vec 词向量可以较好地表

6、达不同词之间的相似以及类比关系。Doc2VecWordRankFastText 第四步特征选择关键怎样构造好的特征向量 ?要选择适宜的、表达才能强的特征。常见的特征选择方法 DF、 MI、 IG、 CHI、WLLR、WFO 六种。第五步模型训练 1、模型对于不同的应用需求我们使用不同的模型传统的有监视以及无监视等机器学习模型 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型深度学习模型 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。 2、考前须知 1 过拟合过拟合模型学习才能太强以致于把噪声数据的特征也学习到了导致模型泛化才能下降在训练集上表现很好但是在测试集上表现很差。常见的解决方法有增大数据的训练量增加正那么化项如 L1 正那么以及 L2 正那么特征选取不合理人工挑选特征以及使用特征选择算法采用 Dropout 方法等。 2 欠拟合欠拟合就是模型不可以很好地拟合数据表如今模型过于简单。常见的解决方法有添加其他特征项增加模型复杂度比方神经网络加更多的层、线性模型通过添加多项式使模型泛化才能更强减少正那么化参数正那么化的目的是用来防止过拟合的但是如今模型出现了欠拟合那么需要减少正那么化参数。 3 对于神经网络注意梯度消失以及梯度爆炸问题。

展开阅读全文

【NLP】自然语言处理 完整流程-精品文档资料整理.docx

【NLP】自然语言处理完整流程-精品文档资料整理.docx