重邮张清华:发展数据科学需要大数据试验场

近日 , "浪潮云数智中国行-重庆站"现场 , 重庆邮电大学计算机学院/人工智能学院执行院长张清华做了题为《人工智能发展的内驱动力》的主题演讲 。 张清华院长分享了人工智能时代下数据、算法和算力的发展 , 尤其对人工智能时代下的"数据科学"做了精彩的解读 。
随着计算机、互联网、移动互联网与物联网的发展 , 我们已经进入了以数据为主体的数字化进程中 , 科学研究也已经走向"数据科学"第四范式 。 数据是数字世界的基本要素 , 也是人工智能的生产资料 。 然而 , 目前我们对数据的挖掘与探索仍然停留在表层 , 并未发现数据本身的新规律、新知识 , 并由此创造新的价值 。 面对数据的挑战 , 深化人工智能发展 , 重大的科学基础设施建设必不可少 。
将重庆邮电大学建设为"重庆市大数据智能化的一个实验场所、人才高地、科技高地" , 是重庆市的重要战略部署 。 目前 , 重庆邮电大学正加紧筹划建设"大数据试验场" , 推动科学基础设施的建设 , 为重庆市以大数据智能化为引领的创新驱动发展战略提供强有力的基础设施支撑 。 2020年7月 , 重庆邮电大学与浪潮携手打造了计算性能达每秒千万亿次规模的人工智能创新平台 , 作为重邮的核心算力底座 , 支撑起重邮的大数据智能化研究 , 切实推动重庆市的智慧新基建发展与国家新一代人工智能创新发展试验区建设 。
以下为张清华院长演讲实录(节选):
数字世界来临 , 数据成为生产资料
人工智能的三大要素是算法、算力和数据 。 其中 , 数据是人工智能时代的生产资料 。 那么我们为什么进入数字世界 , 被数据包围?首先要提到的是计算机的发展 , 计算机令一切数字化成为可能 , 也让高效计算成为可能 , 我们已经身处数字化进程中 , 是抵挡不住的潮流 。 第二 , 网络的发明让机器的互联互通成为可能 , 让信息高效汇聚成为可能 。 第三 , 移动互联网的发展使得我们的数据从固定终端转移到移动终端 , 变为我们的手机、iPad 。 第四 , 物联网通过传感器 , 使人与人之间、人与物之间、物与物之间构建起万物互联的数据世界 , 让现实世界精确映射到数字世界成为可能 。 实际上我们每个人都是数字世界的最基本要素和数据生产者 , 每个人都在数字世界上对自己进行画像 , 最后汇聚成一个数字海洋 , 也就是我们今天所说的"数字世界" 。
在人类社会诞生前 , 世界上我只有一维空间 , 即物理空间 。 有人类社会后 , 我们说形成了包含社会空间在内的二维空间 , 现在我们给自己构造了一个第三空间 , 就叫数字空间 。 在三维空间里 , 除了物理空间、社会空间 , 还有虚拟的数字空间 。 数字世界现在正在逐渐形成 , 其基本要素就是数据 , 数字世界就是我们现实世界的基本映射 , 有人提出是孪生世界 。 我个人认为 , 这个映射空间目前还不是孪生 , 未来可能构建从物理世界到数字世界的双生 , 可能那时候提"数字人"会更为准确 。
重邮张清华:发展数据科学需要大数据试验场文章插图
数据科学作为第四范式
2013年被称为大数据元年 , 后来国家每年都在制定计划推动大数据发展 , 我们如何治理数据世界 , 如何应用数据世界?对应的就需要处理数据的科学 , 因此 , 大数据战略推出后 , "数据科学"应运而生 。
什么是数据科学 , 我查了很多资料 , 但是没有很准确的定义 。 有人这样说过 , 要成为一门科学 , 背后一定要有基础理论支撑 。 我们的人工智能发展得非常繁荣 , 然而 , 繁荣主要是在应用端 。 可以说 , 治理数据的模型、方法都还在路上 。 现在 , 应用实践已经倒逼我们做理论研究、基础理论分析 。
科学研究的第一范式是实验科学 , 第二范式是理论科学 , 第三范式是计算科学 , 第四范式就是数据密集型科学 , 也即"数据科学" , 它以数据挖掘为依据 , 也就是数据世界形成后我们希望从数据当中获取其本身蕴含的规律和价值 。 然而 , 目前我们在数字世界中能还原现实世界的规律 , 但是还没有发现 , 数据世界本身的新规律 。