(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件.pptx

上传人:春哥&#****71; 文档编号:16398207 上传时间:2022-05-17 格式:PPTX 页数:24 大小:376.02KB
返回 下载 相关 举报
(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件.pptx_第1页
第1页 / 共24页
(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件.pptx_第2页
第2页 / 共24页
点击查看更多>>
资源描述

《(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件.pptx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、课程主讲人:(本科)第12章 基于自然语言工具包NLTK的文本挖掘入门ppt课件Chap12 Introduction to Text Mining Based on NLTKDepartment of Computer Science and TechnologyDepartment of University Basic Computer TeachingNanjing UniversityNanjing University自然语言处理和文本挖掘自然语言处理(Natural Language Processing, NLP)是研究计算机处理人类语言的一门技术,是融语言学、计算机科学和数学

2、于一体的科学。主要领域包括:信息检索、机器翻译、文本挖掘、问答系统和对话系统等。文本挖掘指从文本中挖掘出高质量的信息,包括:文本分类、聚类、文本摘要、实体抽取与识别、情感分析和挖掘信息可视化等3Nanjing UniversityNLTK简简介Nanjing UniversityNLTK 著名的基于Python的开源自然语言工具包 实现自然语言各类处理包括文本挖掘的Python工具包,它提供了超过50种的语料库和词典资源,还有一套用于分类、标记、词干标记、解析和语义推理的文本处理库,以及工业级NLP库的封装器和一个活跃的论坛5Nanjing UniversityNLTK核心模块6语言处理任务语

3、言处理任务NLTKNLTK模块模块功能功能获取语料库corpus语料库和词典的标准化接口字符串处理tokenize, stem分词,句子分割,词干提取搭配发现collocationst-检测,卡方,点互信息PMI词性标注tagn-gram, backoff, Brill, HMM, TnT机器学习classify,cluster,tbl决策树,最大熵,贝叶斯,EM,k-means分块chunk正则表达式,n-gram,命名实体解析parse, ccg图表,基于特征,一致性,概率,依存语义解释sem, inference演算,一阶逻辑,模型检验指标评测metrics精确率,召回率,一致性系数概率

4、与估计probability概率分布,平滑概率分布应用app, chat图形化检索工具,解析器,WordNet查看器,聊天机器人语言学领域工作toolbox处理SIL工具箱格式数据Nanjing UniversityNLTK下载器7 import nltk nltk.download()下载所需语料和模块Nanjing UniversityNLTK文本语语料库库和词词典资资源Nanjing UniversityNLTK语料库古腾堡古腾堡 gutenberg网络和聊网络和聊天天文本文本webtext就职就职演说演说inaugural布朗布朗brown路透社路透社reuters其他语言其他语言 多

5、多国语言国语言自定义的自定义的语料库语料库NLTK语料库9Nanjing University1. 古滕堡语料库来源于古腾堡项目(Project Gutenberg),该项目有几万本免费的图书,古腾堡语料库挑选了其中的一小部分 from nltk.corpus import gutenberg gutenberg.fileids()austen-emma.txt, austen-persuasion.txt, austen-sense.txt, bible-kjv.txt, blake-poems.txt, bryant-stories.txt, burgess-busterbrown.txt

6、, carroll-alice.txt, chesterton-ball.txt, chesterton-brown.txt, chesterton-thursday.txt, edgeworth-parents.txt, melville-moby_dick.txt, milton-paradise.txt, shakespeare-caesar.txt, shakespeare-hamlet.txt, shakespeare-macbeth.txt, whitman-leaves.txtSource10Nanjing University2. 布朗语料库 第一个百万词级的英文电子语料库,由

7、布朗大学在1961年构建,这个语料库包含了500个不同来源的文本,按新闻、社论、评论和小说等进行了分类 from nltk.corpus import brown brown.categories()adventure, belles_lettres, editorial, fiction, government, hobbies, humor, learned, lore, mystery, news, religion, reviews, romance, science_fictionSource11Nanjing University3. 路透社语料库 含了10788个新闻文档,共计1

8、30万个词,这些文档被分为90个主题,按照“训练”和“测试”分成两组 from nltk.corpus import reuters reuters.fileids()test/14826, test/14828, test/14829, test/14832, test/14833, . reuters.categories()acq, alum, barley, bop, carcass, castor-oil, cocoa, coconut, coconut-oil, coffee, copper, copra-cake, corn, cotton, , zincSource12Nanj

9、ing University4. 美国总统就职演说语料库 from nltk.corpus import inaugural inaugural.fileids()1789-Washington.txt, 1793-Washington.txt, 1797-Adams.txt, 1801-Jefferson.txt,1805-Jefferson.txt, , 1993-Clinton.txt, 1997-Clinton.txt, 2001-Bush.txt,2005-Bush.txt, 2009-Obama.txtSource13 美国总统就职演说语料库中包含了从1789年到2009年期间57

10、任美国总统的就职演说稿,每一份演讲稿都放在一个单独的文本文件中Nanjing University5. 载入网络或本地文本/语料库14若要载入未收录在NLTK古腾堡语料库中的项目网站上的图书,如要下载一本儿童小说Facing the World url = http:/www.gutenberg.org/files/6461/6461-0.txt import requests r = requests.get(url) r.status_code200 r.text:150ufeffThe Project Gutenberg EBook of Facing the World, by Hor

11、atio AlgerrnrnThis eBook is for the use of anyone anywhere at no cost and withrnalmost no restSourceNanjing University5. 载入网络或本地文本/语料库15PlaintextCorpusReader()函数 from nltk.corpus import PlaintextCorpusReader corpus_root = d:/data/ books = PlaintextCorpusReader(corpus_root, .*) books.fileids()三国演义.tx

12、t, 水浒传.txt, 红楼梦.txt, 西游记.txt 若要载入本地文本/语料库Nanjing University6. 词典资源WordNet16 著名的面向语义的英语词典,共有 155,287个词和117,659 个同义词集合# 例如synsets()函数可以获得词的同义词集 from nltk.corpus import wordnet as wn wn.synsets(website)Synset(web_site.n.01)SourceNanjing University6. 词典资源WordNet17 WordNet的同义词集是抽象概念,这些概念在层次结构中相互联系,层次中每个节

13、点对应一个同义词集,边表示上位词和下位词关系# 例如language的下位词可通过hyponyms()方法来实现 language = wn.synset(language.n.01) language.hyponyms()Synset(artificial_language.n.01), Synset(barrage.n.01), SourceNanjing University基于NLTK的文本挖掘示例Nanjing University1. 古滕堡图书信息统计一些简单的计算 from nltk.corpus import gutenberg allwords = gutenberg.wo

14、rds(shakespeare-hamlet.txt) len(allwords)37360 len(set(allwords)5447 allwords.count(Hamlet) 99 c = w for w in hamlet_words if w in like, likes76Source19Nanjing University1. 古滕堡图书信息统计一些简单的计算 A = set(allwords) longwords = w for w in A if len(w) 12 print(sorted(longwords)SourceOutput:Circumstances, Gui

15、ldensterne, Incontinencie, Recognizances, Vnderstanding, determination, encompassement, entertainment, imperfections, indifferently, instrumentall, reconcilement, stubbornnesse, transformation, vnderstanding20Nanjing University1. 古滕堡图书信息统计21统计该小说中出现次数最多的前10个单词(不区分大小写) from nltk.corpus import gutenbe

16、rg from nltk.probability import * fd = nltk.FreqDist(w.lower() for w in hamlet_words if w.isalpha() fd.tabulate(10)the and to of i you a my it in 993 863 685 610 574 527 511 502 419 400 stopwords = stopwords.words(english) fd = nltk.FreqDist(w.lower() for w in hamlet_words if w.isalpha() and w.lower

17、() not in stopwords) fd.tabulate(10)ham lord haue king thou shall come let hamlet good 337 211 178 172 107 107 104 104 100 98SourceNanjing University2. 布朗语料库-情态动词不同文体条件频率分布# Filename: Prog12-1.pyimport nltkfrom nltk.corpus import browncfd = nltk.ConditionalFreqDist(genre, word) for genre in brown.ca

18、tegories() for word in brown.words(categories = genre)genres = news, romancemodals = can, could, may, might, must, will, wouldcfd.tabulate(conditions = genres, samples = modals)cfd.plot(conditions = genres, samples = modals)File22Nanjing University2. 布朗语料库-情态动词不同文体条件频率分布23 can could may might must will would news 93 86 66 38 50 389 244 romance 74 193 11 51 45 43 244Nanjing University小结 NLTK简介 NLTK文本语料库和词典资源 基于NLTK的文本挖掘示例24

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁