Python数据分析技术在政府投资审计中的应用.docx

上传人:太** 文档编号:63360639 上传时间:2022-11-24 格式:DOCX 页数:3 大小:11.86KB
返回 下载 相关 举报
Python数据分析技术在政府投资审计中的应用.docx_第1页
第1页 / 共3页
Python数据分析技术在政府投资审计中的应用.docx_第2页
第2页 / 共3页
点击查看更多>>
资源描述

《Python数据分析技术在政府投资审计中的应用.docx》由会员分享,可在线阅读,更多相关《Python数据分析技术在政府投资审计中的应用.docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Python数据分析技术在政府投资审计中的应用在政府投资审计中,建设工程招投标环节的审查是一项 重点内容。传统的审计工作方法是人工比对非结构化招投标 文件,查找围标串标问题线索,不仅耗费大量人力、时间, 而且比对结果主观性较强,缺乏数据支撑。襄阳市审计局在 某政府投资审计工程中运用OCR文字识别技术和Python数 据分析方法将非结构化招投标文件转化为结构化文本数据 进行分析,精准定位疑点线索,高效解决审计难题。一、结构化文本数据转换根据工程特性,确定目标文本。经初步审查,某政府投 资审计招投标文件综合报价未呈现规律性差异,为精准定位 围标串标疑点线索,审计人员选取投标文件中工程实施方案 作为

2、目标文本,锁定分析范围,比对是否存在投标文件雷同 的情况。首先对扫描后的文档图像预处理,进行必要的修正。 其次利用有效的OCR文字识别系统提取文本数据,批量将图 像转换为文本文件储存。最后,进行数据清洗,校核文本数 据逻辑性、准确性,整理为格式统一、规范的电子文档。二、文本数据预处理某政府投资审计工程招投标环节的审查需分析12个投 标文件中工程实施方案,每份实施方案均在1万字以上,文 本数据体量大,比对难度高。首先导入外部模块Docx,获取 文本数据。运用Python内置模块0s对文本进行数据清洗, 做好数据准备。其次,导入外部模块Jieba实现智能拆分, 将文档内容分割为假设干词组、短句。最

3、后,遍历文本数据, 计算词组出现频次、长度。主要代码如下列图所示:def cutDoc(filePath):doc = docx.Document(filePath) ps = doc.paragraphs cuts = for p in ps:if len(p.text) 0:words = jieba.lcut(p.text) for word in words:if len(word) 1:cutsfword = cuts.get(wordJ 0)+1 return cuts三、文本数据分析要审查不同投标单位投标文件是否存在雷同情况,需计 算文本数据两两之间相似比率。首先,将某政府投资审

4、计项 目文本数据放入字典,遍历两个字典,设置重复字数算法, 获取重复词组情况。如某词组长度为2,在A文档出现3 次,B文档中出现5次,那么A、B文档间重复字数为该词组 长度乘两篇文档出现次数最小数,重复字数为6个字。其次, 需计算相似比率的文本数据共12份,两两比对66组,循环 嵌套遍历各文本数据,计算总字数,选取每组总字数最小数, 用重复字数除文本总字数得出每组文本数据相似比率。主要 代码如下列图所示:#计算文档重复字数def dodnter(filePathA, filePathB): jg = cutsA = cutDoc(filePathA) cutsB = cutDoc(filePa

5、thB) for iB in cutsB.keys(): if iB in cutsA.keys():jgiB = min(cutsAiBJ cutsBiB) wc = 0for k, v in jg.items(): wc += len(k) * vreturn wc#计算文档总字数def getWordsCnt(filePath):doc = docx.Document(filePath) ps = doc.paragraphs wc = 0 for p in ps:wc += len(p.text) return wcfl = os.listdir(path)for i in range

6、(len(fl) - 1):for j in range(i + 1, len(fl): fa = path + fli fb = path + flj wci = doclnter(fa? fb) wca = min(getl*JordsCnt(fa), getWordsCnt(fb) print ( format (fli, flj, wci / wca * 100)四、应用效果某政府投资审计工程对投标文件中工程实施方案运用 Python数据分析方法计算相似比率,该算法定位精准率达 100%,相似比率达50%以上的有16组,最高65. 82%,确定 疑点16个。本次政府投资审计工程运用的Python数据分析 方法丰富了审计工具库,提升了审计工作质效。一是实现了 政府投资审计工程资料电子化、标准化转换。二是实现了文 本数据的分析处理,为后续审查工作提供了数据支撑。三是 实现了审计质效的提升,将本应人工比对的66组文档缩减 为16组。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁