《Python数据分析技术在政府投资审计中的应用.docx》由会员分享,可在线阅读,更多相关《Python数据分析技术在政府投资审计中的应用.docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Python数据分析技术在政府投资审计中的应用在政府投资审计中,建设工程招投标环节的审查是一项 重点内容。传统的审计工作方法是人工比对非结构化招投标 文件,查找围标串标问题线索,不仅耗费大量人力、时间, 而且比对结果主观性较强,缺乏数据支撑。襄阳市审计局在 某政府投资审计工程中运用OCR文字识别技术和Python数 据分析方法将非结构化招投标文件转化为结构化文本数据 进行分析,精准定位疑点线索,高效解决审计难题。一、结构化文本数据转换根据工程特性,确定目标文本。经初步审查,某政府投 资审计招投标文件综合报价未呈现规律性差异,为精准定位 围标串标疑点线索,审计人员选取投标文件中工程实施方案 作为
2、目标文本,锁定分析范围,比对是否存在投标文件雷同 的情况。首先对扫描后的文档图像预处理,进行必要的修正。 其次利用有效的OCR文字识别系统提取文本数据,批量将图 像转换为文本文件储存。最后,进行数据清洗,校核文本数 据逻辑性、准确性,整理为格式统一、规范的电子文档。二、文本数据预处理某政府投资审计工程招投标环节的审查需分析12个投 标文件中工程实施方案,每份实施方案均在1万字以上,文 本数据体量大,比对难度高。首先导入外部模块Docx,获取 文本数据。运用Python内置模块0s对文本进行数据清洗, 做好数据准备。其次,导入外部模块Jieba实现智能拆分, 将文档内容分割为假设干词组、短句。最
3、后,遍历文本数据, 计算词组出现频次、长度。主要代码如下列图所示:def cutDoc(filePath):doc = docx.Document(filePath) ps = doc.paragraphs cuts = for p in ps:if len(p.text) 0:words = jieba.lcut(p.text) for word in words:if len(word) 1:cutsfword = cuts.get(wordJ 0)+1 return cuts三、文本数据分析要审查不同投标单位投标文件是否存在雷同情况,需计 算文本数据两两之间相似比率。首先,将某政府投资审
4、计项 目文本数据放入字典,遍历两个字典,设置重复字数算法, 获取重复词组情况。如某词组长度为2,在A文档出现3 次,B文档中出现5次,那么A、B文档间重复字数为该词组 长度乘两篇文档出现次数最小数,重复字数为6个字。其次, 需计算相似比率的文本数据共12份,两两比对66组,循环 嵌套遍历各文本数据,计算总字数,选取每组总字数最小数, 用重复字数除文本总字数得出每组文本数据相似比率。主要 代码如下列图所示:#计算文档重复字数def dodnter(filePathA, filePathB): jg = cutsA = cutDoc(filePathA) cutsB = cutDoc(filePa
5、thB) for iB in cutsB.keys(): if iB in cutsA.keys():jgiB = min(cutsAiBJ cutsBiB) wc = 0for k, v in jg.items(): wc += len(k) * vreturn wc#计算文档总字数def getWordsCnt(filePath):doc = docx.Document(filePath) ps = doc.paragraphs wc = 0 for p in ps:wc += len(p.text) return wcfl = os.listdir(path)for i in range
6、(len(fl) - 1):for j in range(i + 1, len(fl): fa = path + fli fb = path + flj wci = doclnter(fa? fb) wca = min(getl*JordsCnt(fa), getWordsCnt(fb) print ( format (fli, flj, wci / wca * 100)四、应用效果某政府投资审计工程对投标文件中工程实施方案运用 Python数据分析方法计算相似比率,该算法定位精准率达 100%,相似比率达50%以上的有16组,最高65. 82%,确定 疑点16个。本次政府投资审计工程运用的Python数据分析 方法丰富了审计工具库,提升了审计工作质效。一是实现了 政府投资审计工程资料电子化、标准化转换。二是实现了文 本数据的分析处理,为后续审查工作提供了数据支撑。三是 实现了审计质效的提升,将本应人工比对的66组文档缩减 为16组。