傻大方


首页 > 人文 >

预测|对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数



按关键词阅读:

_原题为 对话清华沈阳:新冠大幅压缩矛盾爆发时间 , 评估未来考虑疫情变数
前几天 , 在微博上有100万粉丝的沈阳发了条朋友圈:近期我们对预测的持续研究 , 已逐步形成了一套方法论 , 预测某些事情已经比较准确 。
沈阳是清华大学新闻与传播学院教授 , 长期从事舆论分析研究 。 他给这套预测方法起了个很学术的名字:基于网络公开数据的风险弱信号发现与预测 。
预测|对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数
文章图片

清华大学新闻与传播学院教授沈阳 。
在上一篇稿件中 , 南都采访人员详细介绍了沈阳如何基于1亿多条微博、文章、短视频 , 找到潜在的风险 , 并对风险走势作出预测 。 (详见:《如何通过1亿条微博、文章、短视频 , 提前预测到汛情?》)
这一新兴研究领域已初露锋芒 , 沈阳对北京第二轮疫情的影响天数和感染人数都做出了较为精确的预判 。 但他也坦言 , 相关研究刚刚起步 , 尚不能实现100%准确预测 , 未来还需进一步优化效率和准确度 , 并尝试从人工为主过渡到电脑为主的阶段 。
究竟如何实现“风险弱信号发现与预测”?这项研究在新冠疫情中表现如何?沈阳告诉南都 , 新冠疫情既是一场“指数级危机” , 也加速了诸多危机的到来 , 促使种种矛盾爆发 。 他认为 , 传统上的事件线性发展规律 , 在新冠疫情的背景下不完全适用了 。 当前要把疫情带来的变量加入到预测模型当中 , 这样才能对未来有比较有效的判断 。
1
如何做“预测帝”?关注事物的内在风险逻辑 , 而非紧跟新闻报道
南都:你所做的预测和传统的舆情监测有什么区别?
沈阳:传统的舆情监测更多关注重大舆情 , 我们所说的风险弱信号有点像小微舆情 。 在研究范式上还是有区别的 。 在我看来 , 小微舆情、线索性的选题、风险弱信号三者之间是高度重叠的 。
我们团队有一个弱信号发现组 , 专门收集老百姓在民生服务方面的吐槽 , 直接反馈给省内的相关领导做出改善 。
假设市民去办事大厅办证 , 结果遇到工作人员消极怠工 , 他在网上吐槽了这件事 。 实际上 , 他发在网上后我们就能看到 , 这相当于“民生服务弱信号” , 通过发现这些不良现象的信号 , 反馈给有关部门改进 , 营商环境就能越变越好 。
南都:当预测一件事物时 , 你们如何选取切入角度?
沈阳:我们最近分析了江西九江昌洲乡和广西河池龙岩乡的水灾情况 。 一个地方玩抖音的人越多 , 展现出的灾情就越详细 。 我们通过看朋友圈、微博等渠道 , 发现水灾中的细节 , 比较两地的情况 。
预测|对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数
文章图片

7月17日 , 江西鄱阳县昌洲乡中洲圩决口封堵中 。 新华社发
我们关注一件事 , 不是通过媒体报道的方向 , 而是会根据救灾的逻辑去跟进 , 关注事物内在的风险逻辑 。 昌洲乡决堤之后水淹进来了 , 我们就比较在意父老乡亲们有没有得到及时救助 。 我们从短视频上看到 , 他们一部分人被安置在一个中学里 , 还有人做心理辅导工作 。
由此 , 我们会主动对比两个地区的数据 , 比如这个地区有5条关于安置点的视频 , 另一个地区可能没有这么这么多 。 这可能意味着另一个地区在这方面工作上出问题的概率会更高 。
南都:你提到了很多具体的分析框架 , 这些框架需要先由有经验的研究者提出吗?预测的准确度如何?
沈阳:目前这个阶段还必须是人工为主 , 我们还没跨越到机器为主的阶段 。 从我们的角度看 , “风险弱信号的发现和预测”还处在研究早期 , 需要不断努力 。 我们对一部分项目做了预测准确度评估 , 更多的项目还没做评估 。分页标题#e#
南都:所以从目前的情况看 , 随着研究者意识到可能存在更多的变量 , 将其加入模型后 , 最终结果也将是一个不断进化的过程 。
沈阳:对 。 我们在研究当中有一系列方法分析哪些变量比较重要 , 再把决定性的变量保留下来 。 在这个基础上 , 再做进一步优化 。 做预测最好玩的地方在哪?你可以对明天做一个预测 , 如果这件事明天没有发生 , 你当时就能看到预测的对错 。
自然或者社会当中一定会发生的事 , 是不以人的意志为转移的 。 如果预测的不准 , 一定是模型里哪些要素考虑不对 , 第二天就可以做调整 。 新冠疫情加速了各种事物的变化 , 过去还需要很长的观测周期 , 现在可能隔几天就会看到结果 。
2
从1亿网络数据找到风险:不提倡使用内部数据 , 要有挖掘公开数据的能力
南都:要发现风险弱信号并实现预测 , 需要哪些数据支撑?是否需要政府或企业的内部数据?
沈阳:我们对风险的判断 , 全部是基于公开数据 , 包括微博、微信、网页、客户端、论坛、贴吧、短视频等 。 我们团队一贯提倡使用网络公开数据做发现、预测、预警 。 我们不提倡使用内部数据 , 这既会涉及到一系列管理规定 , 同时内部数据也会存在失真 。
其实 , 我们做国际分析的时候 , 也只能拿到外部数据 , 这就需要有网络公开数据的挖掘和分析能力 。 目前 , 我们团队每天的数据量超过1亿多条 。 当然 , 这个数据量也意味着价值密度不高 。 比如 , 我们要预测一支股票的走势 , 但贴吧里有大量从事商业推广的水军在灌水 , 这部分是不能作为预测工具的 , 或者权重占比要非常低 。
南都:有一个比较现实的问题 , 全世界能接触网络、有网络使用习惯并会公开发表言论的人还是少数 。 这种情况下 , 基于公开数据做推断 , 有没有可能出现偏差?
沈阳:传统上做分析和预测 , 大多基于抽样调查 。 但从目前情况看 , 抽样调查的方法其准确性有时候也是要打问号的 。 未来可能要将小数据调查和大数分析结合起来 。
确实 , 大部分人是不说话的 。 但我们也可以建模 , 根据喧哗的少数来推测沉默的大多数 。 有一些科学模型可以推测他们的逻辑 , 他们的想法是什么 。 随着技术手段增强 , 大家使用社交网络的时间越来越长 , 推测沉默大多数的能力也会越来越强 。
南都:在事件早期 , 互联网上可能还没有具体的“信号” , 怎样作出预测?
沈阳:我们目前有一套热点发现系统 , 可以监测中国近3000个县的热点事件 , 从中筛选出可能存在的风险 。 除了固定地区的监测外 , 我们还会定义一批风险敏感者 , 如果他们说的一件事不在热搜里 , 且这件事可能有指数级的增长 , 就会纳入我们的观测范围 。
南都:风险敏感者是怎么找到的?
沈阳:我们研究舆论的时间也有10年了 , 所以积累了大量网络当中的意见领袖 。 我们的数据库中 , 微博上的风险敏感者超过10万人 。 他们一旦释放了新的信号 , 我们就会跟进 。
例如 , 疫情之中医生就是我们的关注重点 , 因为他们对疾病比较敏感 。 跑医疗口的采访人员我们也会比较关注 , 有些事情医生不方便说 , 采访人员可能就会告诉你 。 此外 , 网络中很常见的个人看病吐槽我们也会关注 。
3
新冠疫情带来的风险变数:历史进程加速与矛盾压缩爆发
南都:作为风险预测者 , 你是怎么理解风险的?
沈阳:整体上看 , 随着技术进步 , 人类对地球环境的影响极大 , 社会风险在全球范围内有了比较明显的提升 。
一是技术性能指数级增长风险 。 技术性能的指数级增长让全球技术风险大规模提升 。 二是自然灾害和社会行为风险 。 人为对自然环境改造所造成的自然灾害风险 , 有可能导致黑天鹅事件 。 三是各种风险叠加后形成的系统性风险 。 四是舆论欺诈导致的个体的人财物风险 。 五是国际博弈风险 。分页标题#e#
南都:新冠肺炎对风险的形成有哪些影响?
沈阳:新冠肺炎疫情到来后我们提了三个理论来解释各种风险现象 。
第一个是“新冠加速论” 。 新冠疫情让本该在未来到来的很多事情加速到来 , 这种加速度大幅增加了风险概率 , 也带来了许多机遇 。 例如 , 机器人对人的大规模替代原本可能若干年后才会发生 , 但疫情加速了这一天的到来 , 可能会导致一些失业现象 。 为了发现新冠疫情 , 也推动实现“弱隐私的大数据洞察” 。
第二个是“新冠指数论” 。 新冠疫情是人类第一次整体性呈指数级增长的全球公共卫生危机 。 这种指数级影响表现为经济影响、政治影响(如冲突加剧)以及公众心态影响的指数级共振 。 在这样的情况下 , 线性应对措施难以应对指数级增长 。 因此 , 指数级危机需要有指数级的应对措施 。
第三个是“新冠复演论” 。 新冠疫情以来各种矛盾冲突不断加剧 , 把原来需要很长时间积累才会爆发的矛盾压缩到短时间内出现 。 例如 , 美国的种族主义矛盾大面积激发 。 历史上 , 1929年的大萧条、1960年代的黑人平权运动、2008年的次贷危机等 , 都能看到在很短的时间内出现了一系列危机 。
这说明 , 传统上的事件线性发展规律 , 在新冠疫情的背景下不完全适用了 。 我们要把疫情带来的变量加入到预测模型当中 , 这样才能对未来有比较有效的判断 。
4
挖掘风险弱信号的边界:尚处研究初期 , 过早设定边界可能画地为牢
南都:从初步具备一定预测能力 , 到真正落地应用还有哪些路要走?
沈阳:我第一个想做的是 , 进一步丰富理论框架、丰满研究范式 , 这可能要经历很多年 。 第二个要做的是将理论研究和民生服务工作结合起来 , 为政府机构、企业、社会团体提供内部咨询服务 , 如果适合公开发布 , 也会考虑公开传播 。
第三个就是完善我们的风险弱信号大数据平台的整体性 。 我们团队有各种子平台 , 包括舆论大数据、情绪大数据、8个语种的大数据等平台 , 但没有一个单独的风险弱信号发现和预测平台 。 未来要在这方面发力 , 进一步提高效率 , 优化发现和预测模式 。
南都:你觉得对风险弱信号的挖掘 , 其应用边界在哪?
沈阳:作为一门学科 , 我个人不太喜欢画地为牢 。 研究早期应当是开放性的 , 在多个领域尝试应用风险弱信号探索边界在哪 。 如果过早划定边界 , 也会限制你的很多灵感 。 显然 , 一个高度数据化 , 真实数据较多的领域可能更为有效 。 如果一个领域假数据太多 , 数据污染严重 , 且难以通过数学模型剔除 , 我们可能就会放弃 。
南都:现在基于公开数据的项目很多 , 很多企业、个人、政府机构都在做这方面的应用和研究 , 怎么保证公开数据不被滥用?
沈阳:大数据使用确实需要平衡 , 既要促进产业发展、促进技术进步 , 也要保护好产权和隐私权 。 有的国家对数据过分保护 , 对隐私权过分强调 , 带来的问题就是产业发展停滞 。 不过 , 我们使用数据时 , 也要严格限制使用隐私数据 , 这样才不会发生次生灾害 。
南都:在这方面 , 你的原则是什么呢?
沈阳:我们要在合理、合法、合规的情况下开展工作 , 要遵循基本的学术伦理 。 比如 , 我们做数据分析的时候 , 不能针对具体的个人分析他的喜好、兴趣、隐私并予以公布 , 这样是会出问题的 。 我们需要做数据脱敏、透明化 。 发布信息时也只针对一个群体 , 比如研究高校教师在网上的特征 , 针对某个个体肯定不行 。 这是一个最基本的逻辑 。
南都:从事风险弱信号研究 , 对团队成员有什么要求吗?
沈阳:我们是一个交叉学科团队 , 欢迎不同专业方向的成员 。 我们的博士后中 , 有社会心理学的 , 有研究地理信息系统的 , 也有中文、传播学方向的 。 我自己还很喜欢法学或历史学的学生 , 如果有这些人加入 , 对我们的研究也会有帮助 。分页标题#e#
我们对历史的理解和别的团队还不太一样 , 我们把历史也看做是人工智能的大语料库 。 人类历史发展到现在 , 通过学习史书中记载的所有内容 , 可以学习到人类社会运行的基本规则 , 了解人性最好的时候和最差的时候 。 人工智能把这些都学习到后 , 就可以针对性的做预测 。
南都:有观点认为 , 跨学科做预测的话 , 其可靠性是存在疑问的 , 你怎么看?
沈阳:我觉得可靠性确实有疑问 , 但学术研究就是要在多元思路中碰撞 。 最上层的研究成果肯定是真理:有发现、有结论、有事实、有观点、有数据、有工具 , 所有东西都是对的 。
但我们不可能每次都做到最好 , 那次好的研究就可能存在一些谬误 , 但基本结论是对的 。 甚至我们的研究方法、思路还有创新 , 也可以给别人借鉴和启发 。
第三种情况就更差一些 , 我的方法有问题 , 结论也有问题 , 但研究中也可能有可取之点 。 只要严格按照学术规范 , 没有故意造假 , 我觉得至少是可以供他人借鉴的 。
学术研究要较真也要包容 。 你能指出他的错误时 , 一般来说他往往也有改正的机会 。 比如我们从传播学的角度研究疫情 , 我们可以组成一个跨学科团队 , 让传染病学的人员参与进来 。 舆论如何影响人的行为?社交媒体的信息如何影响我们戴口罩?戴口罩又会如何影响病毒传播?其实这些是高度关联的 。
【预测|对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数】南都采访人员 宋承翰 发自北京


    来源:(南方都市报)

    【】网址:/a/2020/0721/kd304698.html

    标题:预测|对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数


    上一篇:进展|寨卡病毒研究取得突破性进展 有望治愈小头症

    下一篇:火星|我国首个火星探测器择机升空,飞控任务已准备就绪


    人文

    民间|非洲华侨周报:中非民间外交及媒体合作线上研讨会成功举行

    阅读(44)

    会议由非洲通讯社负责人马赫兰古(SifisoMahlangu)主持。中国驻南非大使馆临时代办李南、环球广域传媒集团董事长南庚戌、独立传媒执行主席苏维等17位嘉宾应邀发表演讲,演讲中嘉宾们从学术研究、民间交流、媒体合作等层面展开了深入的阐述与分析,并提出了许多...

    人文

    分行业|2019年内蒙古平均工资出炉

    阅读(39)

    分行业门类看,年平均工资最高的三个行业分别是:电力、热力、燃气及水生产和供应业,年平均工资为101391元;采矿业年平均工资为120107元;交通运输、仓储和邮政业年平均工资为91513元。年平均工资最低的三个行业分别是:住宿和餐饮业年平均工资44381元;居民...