锐思|大数据在公共管理中的运用与审计启示
新媒体管家
2012年3月,美国政府宣布开展“大数据研究和发展计划” ,并计划在美国国家科学基金会、国家卫生研究院、能源部、国防部等六部门支出2亿美元,大力推动大数据技术的研发活动,该计划的实施表明大数据正从商业领域走向美国的国家战略层面。
一、大数据的概念和特点
大数据(Big Data)并非严格意义上的理论名词,它带有强烈的商业色彩。大数据的提法最早来源于一些IT公司和业内人士,并受到广泛认可。随着大数据讨论的深入,大数据已经逐步超出纯商业的范畴,影响力不断扩大。从个人的理解来看,大数据是来源分散的需要专门技术才能利用的有价值的数据集合,具有巨量性、分散性和复杂性的特点。
(1)巨量性。随着数据量的爆炸式增长,大数据呈现出巨量性的发展特点。根据联合国的研究报告 ,全球的大数据存量从2005年的150EB 增长为2010年的1200EB,并预计将以40%的年增长率继续增长,2020年将达到2007年的44倍,平均每20个月翻一番。大数据在很多行业都达到巨量的程度。根据麦肯锡的研究报告 ,截至2009年,在美国排名最高的离散制造业数据总量约为966PB,紧随其次的政府行业的数据总量约为848PB。很多行业的大企业(雇员数量超过1000人的企业)平均数据存储量都超过了200TB,有的甚至超过了1PB。造成数据总量快速增长的因素:一是企业搜集顾客的信息越来越多。顾客交易的信息,包括顾客个人信息和消费习惯的信息都在搜集范围内,搜集的频率也越来越快,导致商业交易信息总量的增长。二是多媒体技术的应用。医疗卫生行业多媒体技术的大量应用导致了数据总量的增长,特别是视频信息的数据量与静态图像和文字数字数据量相比大幅增长。三是社交媒体和物联网的应用。脸书(Facebook)等社交媒体在美国各个年龄段的人群中使用率都在增加,用户每月分享的图片、日志等用户内容达300亿条以上。物联网应用的领域包括公用设施的智能测量仪器、医疗设备的远程监控设施以及零售商品上的射频识别标签等。物联网通过植入物理世界的传感器和智能设备搜集的运行和环境数据大量增加。
(2)分散性。大数据的分散性既体现在数据来源方面,又体现在数据结构方面。大数据来源是多方面的,既可以来源于企业的信息系统,也可以是个人在社交媒体中提交的数据,还可以是物联网传感器和智能设备自动搜集的数据。大数据来源的广泛性既体现了其与一般数据不同的特点,也揭示了其数据价值的来源。不同来源的数据可相互印证和关联,为在大数据技术下进行深入数据挖掘、智能分析打下了基础。从数据结构来看,大数据既可以是结构化数据,也可以是半结构化和非结构化数据。结构化数据是在固定字段集合中存放的数据,如关系型数据和电子表格数据,属于当前主流的数据存储技术。非结构化数据是不在固定字段集合中存放的数据,包括文本数据(书籍、文章、电子邮件正文)、未标记的视频、音频和图像数据等。半格式化数据则介于两者之间,是用标签和其他标志来划分数据元素的数据。XML、HTML文本都属于半结构化数据。半结构化和结构化数据虽不属于数据存储主流格式,但在现实生活中运用也十分广泛。数据结构的多样化是由数据来源所决定的,不同的数据来源其格式通常也有所不同。
(3)复杂性。大数据的复杂性与其巨量性、分散性相关,正是由于大数据数量巨大,加上数据来源分散、数据格式众多,才使得大数据的分析变得非常复杂。为了能够对巨量的大数据进行分析,必须采用大数据采集、处理、分析和形象化技术和方法才能完成。这些方法不仅涉及到计算机科学,而且涉及到统计学、应用数学等领域,而新的大数据技术方法还在不断产生。大数据概念是一个宽泛的结合体,不仅包括大数据本身,还包括对大数据进行分析的一系列的大数据技术。常见的大数据技术有A/B测试、关联规则学习、分组、簇类分析、众包、数据整合、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测模型、回归分析、情感分析、信号处理、空间分析、形象化等。这些技术都有自己的应用领域,并相互交叉。
二、大数据在公共管理中的运用
大数据原来在商业领域应用比较多,美国政府开展的“大数据研究和发展计划”进一步明确了大数据在公共管理中运用的重要性。
1.大数据能够为公共管理创造价值
世界各国政府都面临着提高公共部门效率的压力,只要政策得当、措施到位,大数据可带来三个方面的受益,一是公共管理效率提高带来的费用节省;二是减少由于错误和欺诈行为带来的福利金等政府转移支付增加;三是提高税收增收率 带来的税收收入增加。根据麦肯锡的研究报告 ,大数据技术可为欧盟23个最大的政府的公共部门管理活动的成本提供15%—20%的下降空间,在未来10年每年创造1500亿欧元到3000亿欧元的价值,并将公共部门的预计效率提高0.5个百分点。此外,大数据可使公共部门项目资金配置更加优化、公共服务质量更高、公共部门责任增强,并有助于建立一个信息更加公开透明的公民社会,提高公众对政府的信任。
2.大数据在公共管理中运用的途径
政府可以在以下五个方面运用大数据技术。
(1)提高公众和政府部门信息处理的效率。政府部门在公共管理过程中经常需要从公众和企业采集大量的数据,然而公众和企业常常不得不重复填写一些表格和信息。如果政府能够从数据库中调取并为公众和企业预填表格固定内容的话,将会为公众和企业节省大量填表时间,同时还能够减少出错的几率。大数据技术通过实现部门间数据共享,可以实现对公众和企业各方面信息的充分利用。例如瑞典税务部门为公众预填收入和过去缴纳税收的部分表格内容,并允许公众通过手机和互联网短信进行修改和确认,为纳税人进行纳税申报减少了大量时间。当然,通过大数据技术消除部门间的数据鸿沟,政府部门内部的信息处理效率也将大大提高。如果政府部门之间能够在线获取数据,减少通过人工搜索和邮寄CD等方式获取数据的话,可以大大提高内部信息处理的效率。
(2)帮助进行部门内的绩效管理。大数据技术应用的一个重要方面是揭示部门内分支机构的绩效。通过绩效仪表板提供财务和运营等数据,使部门能够衡量其不同分支机构的绩效,并采取相应的方法来提高效率。在缺乏外部竞争的公共部门,绩效仪表板等大数据技术为部门内部竞争提供了方法和手段。税务部门的最佳实践中常用的月度积分卡就是运用大数据技术进行绩效管理的有效工具。税务部门通过计算税收收入、纳税人满意度、雇员满意度和公众反馈等四个方面的积分,制作月度积分卡来衡量分支机构绩效,并通过促进最低四分之一等级的分支机构上升等级来提升绩效。同样的道理,通过此类比较方式,还可以帮助公共部门对供货商绩效进行衡量和排序,从而节能大量的政府采购成本。
(3)划分不同人群以提供个性化服务。在私人部门中划分不同客户人群提供个性化服务是很常见的做法,然而公共部门倾向于为所有人提供相同的服务,这使得公共服务提供的效率不高。除了国防、外交等纯公共服务外,在相当多的准公共服务方面,公众往往具有个性化需求。公共管理的实践显示,对不同种类的人群提供个性化的公共服务,能够提高公共管理的效率、效果和公众满意度。例如,德国联邦劳工局对大量的失业人员的失业情况、干预手段和重新就业等历史数据进行分析,使得其能够区别不同类别的失业人群采取有针对性的手段来进行失业干预,大大提高了公共服务提供的效率。该做法使得该局能够在每年减少100亿欧元相关支出的情况下,减少失业人员平均再就业所需时间,大大提高了失业人员的满意度。同样的,税务部门如果能够通过大数据技术,按照纳税人所在地区、历史纳税资料、收入水平和人口统计资料等划分不同类型来开展征税和稽查活动,必将提高税收征收率和纳税人满意度。
(4)通过自动算法来辅助合规性检查。自动算法是大数据技术的高级应用。规则导向的自动算法能够检查各种来源的数据,确定数据之间存在的可疑关联,为进一步检查差异、错误和欺诈行为提供线索。通过神经网络等更先进的自动算法技术还可以进一步减少误报和漏报的几率。对于那些需要进行合规性检查的机构和项目,如税务部门的税收返还项目和公共部门的福利支出项目等,自动算法技术常常非常有效。例如,通过自动算法技术对社会福利有关的大数据进行计算,常常可以发现失业人员在领取失业救济金的同时还在申请工伤补助的例子。通过自动算法进行合规性检查能够有效减少公共部门和项目的差异、错误和欺诈行为。
(5)为商业领域的创新活动提供数据支持。大数据技术促进了政府信息公开,为营利和非营利的第三方创新商业模型、产品和服务提供了可能。建立在政府提供的公开信息基础上的第三方工具,为公众和企业充分利用公共信息资源进行决策提供了支持。例如英国的非营利组织开放知识基金会(Open Knowledge Foundation),采用政府信息公开项目提供的数据来开发网站(www.Wheredoesmymoneygo.org),并通过大数据分析和形象化技术使公众更容易理解英国的公共支出情况。美国公司Brightscope对美国劳工部提供的雇员缴纳401(k)计划管理费用数据进行分析,并结合美国证券交易委员会和美国统计局提供的公共数据,为定量地评估401(k)计划提供了在线工具。建立在大数据技术基础上的创新活动提高了公众和企业决策的科学性和满意度。
三、大数据对审计发展的启示
1.大数据技术应成为下一步计算机审计发展的方向
审计技术方法是审计实现其职能的重要手段。近年来,随着被审计单位信息化的发展,以计算机审计为代表的审计技术方法也在不断演进。随着被审计单位财务、业务的电子化,获取被审计单位的电子数据开展数据审计,已经成为审计的重要方式。联网审计等技术也使得审计机关获取被审计单位数据的深度、广度和频率大大增加。计算机审计取得重大突破,但也存在一些问题,主要表现在下面几个方面。一是对数据的分析和利用局限于查找单个问题,系统地全面分析较少。二是对单个部门和单位的数据分析较多,跨部门的综合分析较少。三是数据分析过分依赖于数据分析专业人员,简单易用的自动化数据分析工具较少。计算机审计存在的问题使得数据利用率较低,制约了审计效率的提高和综合审计目标的实现。
未来,大数据技术应在以下方面推动计算机审计的发展。一是充分利用审计机关获取的各方面数据,建立集中统一的被审计单位数据库,其中应包括被审计单位的时间序列的历史财务、业务数据和所处的行业数据。审计部门数据采集的来源应该是多方面的,包括被审计单位的数据、行业部门发布的权威数据和审计机关自身积累的历史数据。二是在数据库基础上建立集中统一的数据库分析平台。审计机关应加大对大数据技术的研究和开发力度,整合大量简单易用的大数据分析工具,形成一个大数据分析平台供普通审计人员使用。通过大数据技术促进审计信息的共享和大数据技术方法的推广应用,从当前粗放型的发展迈向集约型的发展模式,将是未来一段时间审计技术方法发展的主流。三是在大数据技术基础上建立集中统一的审计管理和决策平台。充分利用大数据平台的数据,创新应用机器学习等各项商务智能技术,提高审计管理和决策水平。
2.审计部门应通过大数据为被审计单位提供个性化服务
审计机关与被审计单位之间是监督与被监督的关系,这点是毫无疑问的。然而监督和服务本是一体两面,监督的目的是为了维护财经纪律,提高资金使用效率,服务于国家经济和被审计单位的健康发展。从某种程度来说,为被审计单位服务应成为审计部门的重要目标。从国外情况来看,大数据技术通过划分公共部门服务对象的类型提供个性化服务,能够有效地提高公共管理的效率和客户满意度。审计机关也应该创新审计管理方法,为被审计单位提供个性化的审计服务。为此,审计机关应利用大数据技术做好以下工作。一是完善所管辖范围内被审计单位的管理信息数据库。该数据库不仅应该包括被审计单位的名称、地址、业务类型、财政预算、收入规模等基础信息,还应该包括过去审计的历史、结果、风险水平、整改等管理信息。二是创新审计管理方法,建立适应被审计单位个性化服务的管理模式。重点在于利用大数据技术,从审计管理信息数据库中筛选出不同风险等级的被审计单位,有针对性地进行监督和服务。三是根据被审计单位的管理信息,建立风险导向型的审计模式。审计的目标是减少国民经济运行的风险,具体来说就是要通过审计降低被审计单位的风险。风险导向型的审计模式就是要不断地发现并通过审计降低最高风险等级的被审计单位的风险,并通过维护和动态更新所有被审计单位的风险数据库,来降低整体经济面临的风险。
3.运用大数据进行审计还需要解决几个具体问题
大数据技术的发展日新月异,在公共部门的应用也逐渐增多,但审计部门运用大数据进行审计还需要解决几个具体问题。一是国家审计数据中心建设尚有较大差距。近年来,审计署按照金审工程的统一规划建设了国家审计数据中心,目前已经具备了300TB的数据存储能力,然而这离开展大数据审计的要求还有点远。根据麦肯锡研究报告 的统计,美国政府部门2009年存储数据总量为848PB。我国政府部门数据存储总量尚未有准确统计数字,但审计署从政府部门中获取的数据总量应至少达到PB级的水平,才能有效地支撑大数据技术的需求。二是提供给普通审计人员使用的大数据平台还未能完成。大数据技术重在应用,为了满足审计人员数据分析和审计管理的要求,审计署应在审计数据中心的基础上,开发简单易用的各类大数据技术工具。目前国家审计数据中心的硬件、网络建设和数据中心基本规划已经完成,但是运行在其上的数据分析和管理平台还需要完善。未来应在国家审计数据中心基础上,充分利用云计算、数据挖掘、地理信息系统等技术构建综合数据分析和管理平台,提高大数据技术的应用水平。三是审计人员的知识结构还不能满足大数据技术的要求。大数据技术的应用需要既懂计算机、网络、数据库又懂审计的复合型人才。为培养计算机审计的复合型人才,审计署开展了计算机审计培训和考试。截至2012年6月,通过审计署计算机审计中级考试的审计人员有4400多人,占全国审计干部比例仍然偏低。当前还应继续加大审计人员知识结构转变力度,完善计算机审计培训的课程结构,以适应大数据技术对审计的要求。
本栏目往期文章:
锐思|税局建设“高级分析”(Advanced Analytics)的路径(EP01)
锐思|纳税服务中的“高级分析”(Advanced Analytics)(EP05)
锐思|欠税管理中的“高级分析”(Advanced Analytics)(EP04)
锐思|纳税申报和税款缴纳中的“高级分析”(Advanced Analytics)(EP03)
锐思|税务稽查(审计)选案中的“高级分析”(Advanced Analytics)(EP02)
锐思|“税收管理中的“高级分析”(Advanced Analytics)(EP01)
更多文章请点击“历史文章”……
- 天盾windows数据恢复软件怎么使用
- 苹果手机抹掉所有数据和设置可以重新设置ID吗
- 哪种数据库比较好学?
- 为什么网络连接上了总是出现数据错误字样?
- 吃货们请放肆吃!18年的美食报告数据也靠你们了!
- 美中日糟糕的经济数据恐粉碎全球经济同步复苏的美梦
- 苹果数据线那么容易坏,只能再买新的?
- Excel动态图表能让数据动起来?还有这种操作!
- 数据丨下一波行情爆点,成长龙头股!速看它们的年报披露时间表
- 郑州市房地产数据分析