打造文本领域数据分析处理Matlab _小知识

机器之心专栏
作者：刘鹏飞

以数据为中心，实现各种不同操作接口的标准化，使得用户在数据处理上只需要有一个入口，这就是 DataLab 期待扮演的角色。

文章插图
建立以数据为中心的人工智能已经成为一个正在到来的趋势。一年多前，吴恩达开始发起的一项主题为「数据是人工智能的食物」运动。数月前，谷歌 AI 负责人 Jeff Dean 将数据的分析和管理列为 2021 年后机器学习的一大趋势。不久前，AI 明星创业公司 Huggingface 宣布开始建立可交互的数据分析平台计划。
近日，CMU 联合 NUS、复旦、耶鲁等高校发布了 DataLab：面向文本数据的统一数据分析、处理、诊断和可视化平台。

文章插图

论文链接：https://arxiv.org/pdf/2202.12875.pdf
平台访问：http://datalab.nlpedia.ai/
SDK 地址：https://github.com/ExpressAI/DataLab
文档地址：https://expressai.github.io/DataLab/

根据公布的技术文档，我们看到 DataLab 的产生背景源于以下这样一个问题：
「如果 Matlab 统一了『数值』计算和分析，那么谁来扮演『数据』处理和分析统一的角色？」
比起「数值」，数据的复杂性表现在它往往有着不同的模态，不同的结构，不同的处理操作。这些种种因素使得对数据存储以及操作标准化变得困难，更不用说建立统一的数据分析平台。
所以即使现在做到比较好的 TensorFlow (TFDS)[1] 以及 HuggingFace (HFDS)[2] 的数据集平台，它们也只是完成了标准化数据载入这一件事情；即使集结了几十家高校上百名研究员完成的 Xl-Augmenter 平台，也只是尝试标注化数据增强；即使 Sorkel 联手 HuggingFace， Stanford 等机构提出了 PromptSource [3]，也只是尝试标准化数据提示 (Data Prompting) 这一个操作。
这些不同数据操作平台的构建都非常有价值，然而平台之间切换的代价仍然存在，这里应该有个「平台的平台」的概念，以数据为中心，实现各种不同操作接口的标准化，使得用户以后在数据处理上只需要有一个入口，而这就是 DataLab 期待扮演的角色。
研究团队前段时间刚提出以 Prompt Engineering 为核心的 NLP 发展第四范式。那接下来让我们看看 DataLab 具体在做什么，以及对 Prompt Engineering 会不会也有些帮助？下图 1 为 DATALAB 功能概述。

文章插图
DataLab 的特性如下：

覆盖广：DataLab 目前覆盖大部分 NLP 任务，包含 1700 多个数据集以及 3500 多个通过数据变形获得的数据集；
可理解性：DataLab 为许多数据集 (728 个数据集，139,570,057 个样本) 定制能够刻画数据集的特征（例如性别偏见）并进行计算，它可以帮助研究人员和开发人员在使用数据集之前更好地理解数据集，并帮助数据创建者提高数据质量 (例如消除 artifacts、偏见等)；
统一性：DataLab 的主要目标之一是将不同的数据分析和处理操作统一到一个平台和 SDK 中；
可交互性：DataLab 使得数据查看、评估和处理更高效方便地完成 (实时搜索、对比、过滤、生成数据集诊断报告) 。DataLab 也可以作为现成的标注平台，用户可以在这里贡献一些缺失但重要的可众包信息；
启发性：DataLab 对数据集的全局视角可以激发新的研究方向，比如通过跟踪数据集的全球发展状况，并确定未来的发展方向。

1. 数据的特性细粒度分析
细粒度分析指的是，我们从多个不同的角度去认识一个数据集的特性。下图 2 为 SST 数据集（自然语言处理中关于情感分析的流行数据集）中的样本按照不同文本长度划分的分布图。

文章插图