周涛 张小松 :保卫大数据安全如何发力?

点击??蓝字,关注「DataCastle数据城堡」

本文首发于

新华通讯社半月谈杂志社《时事资料手册》(2017年第4期),经周涛教授授权转载。http://sszlsc.banyuetan.org/chcontents/ssjt/2017724/3911.shtml

“大数据”是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式和生活方式上颠覆性变化的总和。数据的采集、存储和分析能力,是创新型政府的核心战略能力。

数据自身数量和形态的迅猛变化驱动了大数据产业的发展,其主要趋势体现在三个方面。

1. 数据总量呈指数型爆炸性生长。

现在我们每天产生的数据超过了3乘以10的18次方字节,这些数据主要来自于个人的行为和生理数据、传感器和其他探测装置采集的自然数据、大型科学研究生成的巨量数据等等。

目前全球存储总数据量估计为16ZB,即1600万PB,到2025年,这个数目还会翻10倍,达到163ZB。

2. 数据的结构发生了巨大的变化。

以前绝大部分的数据都是以表格的形态存在,我们称之为结构化的数据。

例如一个学生的学籍学业表格中,就有他的姓名、性别、年龄、籍贯、民族、毕业院校、父母职业、高考成绩、大学历次考试成绩、毕业去向等等。

利用一些标准化的统计分析工具,我们很容易就可以得到数据之间的关联,挖掘出家庭背景对于学业发展的影响,性别差异对于就业的影响,少数民族学生主要存在的学习困难等等。

但是现在新增数据的绝大部分(到2017年这个比例会超过90%)是非结构化的数据,包括文本、语音、图像、视频、社交关系网络、空间移动轨迹等等。

这些数据里面蕴含着巨大的价值,但又没有一套标准化的方法去挖掘这些价值。

3. 数据的组织发生了巨大的变化。

以前针对同一个对象不同侧面的数据分散在多处,形成一个个数据孤岛。最近,通过一些政策、资本、产品和技术手段,针对个人、家庭、企业、产品等等的多源数据正在被打通。

针对同一对象不同数据的跨域关联,有巨大的社会经济价值,例如金融机构可以获得更完整的征信记录、税务部门可以全面了解个人和企业的涉税信息、民政部门可以开展更精准的扶贫行动、公安部门可以实时掌握流动人口及涉毒涉服人员全面的信息、商业机构能够投送点击率更高的广告等等。

与此同时,数据的跨域关联带来了隐私和安全方面的巨大挑战,因为分析人员更容易通过多源立体的数据中反向挖掘出个人和家庭隐私信息,而关联数据出现的安全问题带来的毁坏会远远大于单一数据集。

一. 大数据给社会经济带来颠覆性变化

大数据已经并持续给我们的社会经济带来颠覆性的变化,其重大价值具体表现在以下四个方面。

1. 大数据可以帮助维护政府的安全和稳定。

周涛 张小松 :保卫大数据安全如何发力?

通过网络、通信、遥感等多渠道的数据分析,可以实时、精准地感知国内外敌对势力和恐怖主义发展的态势,对一些重大事件进行提前预警。

与此同时,需要注意的是,数据安全意识的缺位和数据安全管理的松懈,也可能给国家安全带来重大隐患。

2. 大数据可以提升政府的治理和决策能力。

通过数据资源目录和数据标准的建设,以及跨部门数据的打通融合,可以大幅度提高政府的社会服务和社会治理能力,既包括提升普通公民办理政务手续的用户体验,也包括交通管理、土地规划、科技计划、税务管理、人才建设、公共治安、纪检反腐、安全生产、扶贫脱贫等多个方面。

与此同时,数据的统计分析,可以帮助主要决策机构和决策人,准确了解政府在教育、医疗、产业、人才等方面的资源配置现状和发展态势,并对医保、税收等牵涉大量公民利益的重大政策调整所带来的直接结果进行定量化政策仿真。

在决策完成后,数据分析可以帮助政府实时掌握决策的社会经济影响,包括舆情。

3. 大数据可以挖掘传统行业内禀的创造力。

周涛 张小松 :保卫大数据安全如何发力?

大数据已经在一些数据密集型的行业,例如金融和电子商务,发挥了巨大作用。

事实上,针对一些尚处于信息化初级阶段的行业,大数据有望发挥更大的提升作用。

例如可以通过具有近场通信能力的工卡,记录产业工人的工作情况;通过具有短程通信能力的传感器,采集生产设备的温度、压力、转速、振动强度等信息;进一步通过数据综合分析,优化生产流程,提高产业工人平均生产效率,监控大型制造设备的运行情况,实现故障的提前预警等等。

这些措施可以制造业的生产效率,降低事故风险。类似的技术手段还可以应用在农业生产等传统行业中。

4. 大数据可以催生全新的商业模式。

周涛 张小松 :保卫大数据安全如何发力?

除了和传统行业的深度结合外,大数据还可以催生以数据共享和交易为核心的新商业模式。

尽管大部分可以通过公共渠道获得的数据资源存在数据陈旧、数据噪音大、数据非标准化等缺陷,而高质量的政务数据又不能直接售卖。但是,通过数据的增值加工形成的数据产品,是具有商品价值的。随着数据市场的逐步成熟,数据供需双方信息会进一步透明化,数据的定价会变成一种成熟的市场行为。

当数据被赋予价格甚至资本化后,数据的商品价值和金融价值非常可观,数据交易本身会成为一种具有巨大经济价值的新商业模式,并且通过数据的流通从整体上促进科技和产业的创新。

二. 大数据面临的风险和隐患

如前所述,大数据具有的重大价值已得到全社会的高度认可,其所带来的发展机遇已经形成从数据采集、数据加工到数据流通的产业链和新经济形态,但是,在大数据共享、开放和应用带来巨大的社会、经济效益的同时,国家和个人的信息安全则面临着前所未有的风险,下面我们从技术和法律两个角度来进一步展开分析。

1. 数据采集的真实性确认,即数据来源的安全。

数据采集是大数据应用的源头,其质量尤其是真实性对后面的数据分析、挖掘、预测结论的正确性至关重要,但是在实际场景中,大数据的来源众多,加上数据采集中的各种主观客观因素,带来了保障数据采集质量的困难。

一方面存在大量的重复的、垃圾的噪声数据,另一方面数据采集者在主观上因利益原因具有刻意修改、伪造数据的动力,因此需要对采集数据的真伪进行客观性甄别,否则如果数据的真实性不能得到确认,其分析预测结果的正确性也难以保证,进而使大数据所创造的价值难以使人信服,影响产业的发展。

例如,经济和产业运行数据采集的错误或造假会造成国家对宏观经济形势的误判,而互联网上的虚假言论、消息会误导民众的舆情倾向、损害政府机构形象、影响社会稳定,造成重大经济损失和不良社会影响。

近年来,互联网上的各类虚假炸弹威胁、恐怖信息呈高发态势,16年底,一架北京飞珠海的航班因遭遇“诈弹”袭击而滞留首都机场,而仅16年因虚假恐怖信息造成机场公安部门启动紧急预案和处置程序就达22次。

及时有效的甄别数据真伪,拦截、封堵和清除各类虚假信息,是大数据产业健康发展所面临的首要问题。

2. 大数据分析挖掘与隐私保护,即数据加工的安全。

大数据的最大价值是数据分析、挖掘和预测,但数据挖掘技术的滥用会对敏感的信息如用户隐私等产生极大的威胁。从主观上讲,在大数据时代,想要阻止对敏感和隐私的信息挖掘几乎是不可能的,这里面具有巨大的商业和经济利益。

当前,围绕数据采集、加工、应用、销售的庞大产业链在我国已悄然形成,这其中既有诸如贵阳大数据交易所、上海数据交易中心、中关村大数据交易平台等合法机构,也有私自将海量个人信息非法窃取并打包出售给中介机构和个人,进而再转手贩卖给销售企业、调查公司、网络犯罪团体等的地下黑产。

最新调查显示,我国互联网个人信息安全的灰色产业链规模已达近百亿,有众多黑客、广告商、中介及诈骗团伙从中谋取暴利。

从技术角度来看,虽然可以通过数据脱敏(也称数据匿名化)的方法来保护敏感和隐私信息,但是过度的脱敏或匿名会导致信息损失,使数据失去挖掘和利用的价值。

例如,如果数据中含有个人可识别信息,如身份证号码、姓名、住址、联系方式、爱好和行为习惯、朋友关系等,不管是通过删除掉或者用编码替换掉,来保护这些隐私信息,都会使挖掘分析时无法有效进行关联而大大降低了分析结论的精准性。

然而另一方面,由于数据的不断聚集和集中以及挖掘技术和计算能力的不断发展进步,从海量和片段的信息中发现敏感和隐私信息正变为可能,近年Nature的科学报告上曾有文章研究显示,通过匹配诸如邮政编码、性别等数据点可能唯一识别个人身份,在仅有两个数据点时,准确率只有50%,但如果找到四个数据点,准确率就能达到95%。

由此可见数据脱敏程度的高低直接影响大数据挖掘的准确性,因此,大数据的共享开放以及对敏感和隐私信息保护力度,包括敏感信息的界定、脱敏、匿名的范围和程度,必将是大数据行业发展过程中面临的重要矛盾和需要持续研究解决的问题。

尤其对于医疗、社保、公共服务、金融信贷等高敏、高价值数据集中的领域,还没有找到公认安全的数据挖掘使用监管方法,数据的开放、共享和融合的推进一直推动困难。

3. 数据持有的权属性证明与管理,即数据使用的安全。

这是目前数据安全中最具争议的问题,数据的权属拥有者和数据持有者往往一开始就是分离的,在从采集到存储、分析应用过程中,持有者还会发生多次变化,但是目前尚没有对数据权属和持有者一个公认可行的界定和管理方法,往往会造成数据持有者对数据的无限度挖掘利用,数据权属拥有者的权益等不到保障,还存在个人隐私泄露的风险。

例如对于个人的健康医疗数据,其权属应该为病人,但数据的持有者和使用者通常为医院,医院对个人的医疗大数据进行分析和挖掘,并创造价值、产生收益,病人是否直接分享到这些成果,并不知情。类似情景在社交网络、个人移动通信、电商平台也存在,一般电商都会用户不知情情况下对利用用户的购买行为数据,进行的分析挖掘并开展精准推销,而分析对用户可能带来的风险影响,用户并不知情。

从技术角度看,现有对数据使用的访问控制的模式和实现手段,都还存在机制上和软件上的安全缺陷。

4. 大数据安全审查的的相关法律法规。

2017年6月国家《网络安全法》正式实施,其中不乏对个人信息的保护、数据的安全的规定,例如《网络安全法》第二十一条:“网络运营者应当按照网络安全等级保护制度的要求,履行下列安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改”。第四十五条:“依法负有网络安全监督管理职责的部门及其工作人员,必须对在履行职责中知悉的个人信息、隐私和商业秘密严格保密,不得泄露、出售或者非法向他人提供”;

这些规定主要针对营运商、网管部门和人员,而对于以上在数据采集、数据加工、数据流通产业链中的安全问题如何进行有效的界定、审查、管理等,尚未从法律角度提出可行的条款和规定。

对于数据采集造假、数据挖掘利用侵犯公民隐私等造成的社会影响和经济损失,法律上也没有与之相对应的评价认定及处罚条例,因此亟待对大数据安全的法律法规做进一步的完善。

2015年七大知名酒店2000万入住信息的泄露、16年雅虎5亿用户信息的泄露以及互联网上大量充斥的虚假新闻、诈骗信息等,无一不说明,大数据所面临安全风险和隐患已经对社会和谐与稳定发展带来了严重的威胁,必须从战略的高度上予以充分的重视,保卫大数据安全。

三. 保卫大数据安全,如何发力?

周涛 张小松 :保卫大数据安全如何发力?

针对上面提到的大数据安全的风险和隐患,应站在技术和法律层面,从大数据产业链的数据采集、数据加工、数据流通全方位共同应对。

技术方面

需要在理论和技术层面,加快突破适合大数据业务的可信验证、隐私保护的数据挖掘、风险评估等相关理论和核心技术,从体系结构上,建立大数据应用的安全围栏。

在数据的可信验证方面,高抗扰数字水印技术能将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用,还能识别出信息的所有者以及被分发的对象,有效防止篡改,有利于数据的追踪溯源,结合区块链技术的优势,可以构建高可信的数据采集环境,实现明晰数据产权、数据使用可溯。在隐私保护的数据挖掘方面,安全多方计算、隐私保护数据搜索、基于限制发布的技术、数据失真等“数据匿名化”技术都可以在保护隐私的前提下,进行数据的利用和挖掘,目前的主要问题是要研究何建立合适的匿名程度模型,既能保障数据分析的正确性,又能保护用户的隐私信息。

法律层面

需要以新实施的国家《网络安全法》指导,完善大数据保护方面的法律法规,明确数据权属、数据持有的界定和关系,数据采集的真实性保证,规范数据使用和挖掘的规则,制订切实可行的实施条例和国家标准、管理措施,并严格遵照执行。

2017年4月,由全国信息安全标准化技术委员会、大数据安全标准特别工作组发布了《大数据安全标准化白皮书》一文,对大数据基础标准、平台和技术、数据安全、服务安全、行业应用五个类别的标准需求梳理,明确了大数据安全标准化需求,将进一步形成大数据安全的国家标准,为制订大数据安全相关的法律条例提供重要的依据。

保卫大数据安全,除了从技术和法律层面发力,全民的重视和参与同样重要,因此还需要普及大数据安全的基本知识,培养数据保护的意识和习惯,建立大数据安全的健康生态体系。

作者简介

周涛,电子科技大学教授、大数据研究中心主任。主要从事统计物理与复杂性,数据挖掘与数据分析方面的研究。在Physics Reports、PNAS、Nature Communications等国际SCI期刊发表300余篇学术论文,引用17000余次,H指数为63。《大数据时代》译者,《为数据而生:大数据创新实践》作者。

张小松,电子科技大学网络空间安全研究中心主任,长江学者特聘教授,研究方向为网络安全、数据安全和软件安全,在国际SCI、EI(工程索引)期刊发表60余篇学术论文。

课程推荐

周涛 张小松 :保卫大数据安全如何发力?
周涛 张小松 :保卫大数据安全如何发力?

长按上方二维码获取课程详情??

「DataCastle数据城堡」

专业的数据科学学习社区