大数据思维查处围标串标的分析思路和操作步骤
日期:2023-03-20  发布人:jjjcsj  浏览量:1783

标题:围标串标问题的审计分析思路

招标投标是建筑业适应社会主义市场经济发展的一种重要经济手段,其主要目的是通过公平的竞争推动市场经济的良性循环。而围标串标的现象的发生,损害了招标人和其他投标人的合法权益,破坏了整个建筑业市场诚信体系,招标投标行为成了专项审计、经济责任审计等关注重点。

近年来,各地公共资源交易中心上线了电子招标投标系统,不同投标人的投标文件是否存在异常一致的情况,可作为围标串标问题的审计切入点。本文以某市住房和城乡建设局局长经济责任审计为例,运用大数据思维,依托电子招标投标系统后台数据,探索围标串标问题的审计分析思路和操作步骤,助力优化建筑领域营商环境,建立市场公平竞争机制。

一、数据特点及难点

招标投标项目资料为压缩文件格式,主要是从电子招标投标系统后台用管理员账号下载得到。压缩文件包括项目注册、招标公告、招标文件、中标结果公告、投标文件等。其中,投标文件包含投标公司经济标文件、商务标文件、技术标文件、工程量清单等资料,主要为PDF格式。在该项目审计中遇到如下困难需要突破:

一是缺乏明确的认定投标文件异常一致判断标准。政策实施部门没有将围标串标问题的认定标准进行进一步的细化,导致在审计取证时问题定性较为困难。

二是单一项目文件体量大。某些资金量大、技术复杂程度高的招标投标项目资料,涉及投标单位多,技术标文件内容图表多且复杂,单个项目压缩文件大小高达几GB,从被审计单位下载受限于下行带宽,数据采集效率低。

三是数据标准化程度低。技术投标文件的PDF格式与我们经常使用的XLS表格、DOC文档格式不同,为非结构化数据,将其转化为非标准化数据无法直接进行分析,不利于及时开展建设项目中技术投标文件批量比对工作。

二、审计思路和方法

(一)审计思路

技术标文件根据不同项目类型及技术要求编写,没有固定格式,因此各个投标单位的技术标文件不会存在内容一致的情况。此次审计使用大数据查重软件来分析同一项目内的技术投标文件重复率,发现是否存在异常一致的问题。为提升审计质量,审计组运用研究型思维拓展思路,从以下方面解决难点:

一是确定投标文件异常一致的标准。通过使用第三方查重软件平台,可以将各个投标文件之间的重复率汇总为表格,将重复率较高的两家公司的投标文件重复部分标红,找出两家公司的投标文件中标红部分的错词错符号,确定错误一致的部分,以重复率加错误一致数作为数据分析疑点的标准。

二是确定数据分析算法。此次审计使用基于java语法的xincheck文本查重软件作为主要分析算法,ocr识别(图片文字识别)使用其内置的Spire Doc模块,设置连续13个字符重复则认定为抄袭作为查重阈值,最后使用WPS文档校对功能统计错词错符号。

三是确定数据整理方法。运用虚拟机和多线程下载项目文件压缩包,用压缩软件查找并提取压缩包中的技术标文件,并使用批量文件重命名软件将其以投标公司作为文件命名,并用图片文字识别模块将PDF图片文件转化为DOC文字文件。(审计工作:CAE101)

(二)方法步骤

一是将采集到的投标项目资料压缩包通过bandizip压缩软件打开,使用查找功能找到技术标文件并解压至项目名称命名的文件夹,通过Advanced Renamer批量重命名工具的一次性批量修正功能将技术标文件以“投标公司名称”的作为文件命名,生成PDF文件保存在项目名称文件夹中。

二是使用xincheck文本查重软件,将查重阈值设置为13,模式设置为横向比对,选择项目名称文件夹作为待查文件所在的文件夹,然后在项目名称文件夹新建一个文件夹,作为查重报告所在文件夹,点击开始查重,即生成RTF格式的查重报告,和汇总各技术标文件重复率的Excel表格。

三是用WPS文字打开重复率高于40%的查重报告,使用WPS文字中的文档校对功能将错词错符号列出,从中剔除掉非红色句子部分及校对不准确的词,将错词错符号突出显示,在汇总表格中记录错误一致个数。

四是将查重报告中错词错符号部分与源技术标文件查找核对,排除因OCR识别PDF文件不准确造成错误的情况,最终生成投标文件异常一致疑点汇总表。

收藏本页
Baidu
sogou