《(中职)Python编程基础与应用实训任务书-0901“结巴”中文分词库的使用(工信版).docx》由会员分享,可在线阅读,更多相关《(中职)Python编程基础与应用实训任务书-0901“结巴”中文分词库的使用(工信版).docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、实训任务:“结巴”中文分词库的使用学校名称:班级名称:学号/工号:学生姓名:实训日期:1实训目的(1) 了解jieba库的基本功能(2) 熟练掌握jieba库的安装(3) 熟练掌握jieba库的常用函数使用,包括:jieba.lcut(s)、jieba.lcut(s,cut_all=True)、jieba.lcut_for_search(s)、jieba.add_word(w)(4) 掌握jieba库的三种分词模式的应用2实训环境普通电脑,并安装以下软件:(1) Windows 7(或者以上版本)操作系统 (2) PyCharm软件(3) Python 3.8以上版本3实训内容任务一:jieb
2、a库的三种分词模式的训练1、任务内容(1) 编写程序,应用jieba库的三种分词模式,对字符串“jieba是优秀的中文分词第三方库”进行分词。函数名称描述jieba.lcut(s)精确模式,返回一个列表类型。jieba.lcut(s,cut_all=True)全模式,返回一个列表类型。jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型。jieba.add_word(w)向分词的词典增加新词w。(2) 要求关键代码做好注释,效果如下图所示2、任务提交要求(1) 提交任务运行的截图,放在下面(2) 提交任务的代码3、参考答案及解析解析略任务二:英文文本解析1、任务内容编
3、写程序,对一个txt格式的英文文章(比如english.txt)进行文本解析。(1) 程序提示输入一个英文文章的路径。(2) 打开该文件,并读取全部内容。读取文件时请注意字符的编码格式。字符转换为小字,并把特殊字符“!#$%()*+/:;=?_|”删除。(3) 进行分词和统计,把前10个高频词显示出来。(4) 要求关键代码做好注释2、任务提交要求(1) 提交任务运行的截图,放在下面(2) 提交任务的代码3、参考答案及解析解析略任务三:中文文本解析1、任务内容编写程序,对一个txt格式的中文文章(比如学习强国简介.txt)进行文本解析。(1) 程序提示输入一个中文文章的路径。(2) 打开该文件,并读取全部内容。读取文件时请注意字符的编码格式。(3) 进行分词和统计,把前10个高频词显示出来。在分词时需要使用liebiao=jieba.lcut(txt) 进行分词。(4) 要求关键代码做好注释2、任务提交要求(3) 提交任务运行的截图,放在下面(4) 提交任务的代码3、参考答案及解析解析略4实训心得体会