选择遗忘|当AI也精通了「读唇术」:戴上口罩或许是我最后的倔强


有一个人类的本能行为 , 或许我们很难察觉:当因为隔得太远或者环境噪音太大而听不清对方说话的时候 , 你会下意识地观察对方的唇部动作 , 来判断这个人到底在讲什么 。
既然人类可以从唇部动作中读取讲话的内容 , 反过来说 , 我们是否能够教会AI去学习这套方法 , 并且再进一步输出语音呢?答案是肯定的 , 并且这门技术已经在公共安全等领域有着相当广泛的应用 。
近日 , 来自印度海得拉巴国际信息技术研究所(IIIT,Hyderabad)的团队发布了他们在这一领域的最新成果 。 目前 , 该研究的代码、数据、模型均已公布 。
光动嘴不用出声 , AI自动给你合成语音 。
这就是来自印度信息技术研究所(IIIT)的黑科技——一个名为Lip2Wav的AI程序 。
Lip2Wav可以学习个体的说话方式 , 并且实现准确的唇语合成 。
这个AI效果炸裂 , 你几乎感觉不到是机器配音 , 就像人类在发言一样 。
不要用来做坏事哟 。
目前工业界普遍使用的唇语到语音/文本的数据集有两种 。
一种是小规模的、受约束的词汇数据集 , 如GRID和TCD-TIMIT数据集 , 还有一种是无约束、开源的多人词汇数据集 , 如LRS2、LRW和LRS3数据集 。
这些数据集前者存在数量不足 , 不足以模拟真实环境的问题 , 后者问题在于适用对象过于宽泛 , 个性化特征不够鲜明 。
基于上述问题 , 作者提出新的思路 , 步骤如下:
1.准备数据
准备针对个人的语音、视频大量数据 , 这是Lip2Wav的第一个显著特点 , 增加数据量来增强模型的拟合效果 。 请输入文字 。
作者为Lip2Wav准备的数据集包含了5位演讲者的演说视频 , 这些视频包括国际象棋分析、化学课程、深度学习课程等类型 。
每个演讲者都有大约20个小时的YouTube视频内容 , 作者使用了5个人、共计100+小时的数据 , 跨越5000+的丰富词汇量 , 基本涵盖日常英语词汇 。
在整理好数据后 , 作者的思路是学习精确的个体说话风格 , 换言之追求对个体风格的极致模拟 , 而非普遍适用的通用模型 。
这个示例针对的是国际象棋分析 , 训练AI去分析演讲者的面部表情动作 , 并进行特征编码 。
当然 , 作者没有重复造轮子 , 而是利用face_alignment模型上二次开发 , 修改为一次分批提取人脸 。
face_alignment模型对3D人脸识别效果良好 , 在GitHub有3.9kStar 。
Lip2Wav的网络包括一个时空编码器和一个基于注意力的解码器 。 时空编码器将多个T帧作为输入 , 然后通过一个基于3D卷积神经网络的编码器进行输出 。
研究者将基于3D卷积神经网络的编码器的输出馈送到基于注意力的语音解码器 , 遵循seq-to-seq范例生成谱图 。
Lip2Wav的网络包括一个时空编码器和一个基于注意力的解码器 。 时空编码器将多个T帧作为输入 , 然后通过一个基于3D卷积神经网络的编码器进行输出 。
研究者将基于3D卷积神经网络的编码器的输出馈送到基于注意力的语音解码器 , 遵循seq-to-seq范例生成谱图 。
在得到训练结果后 , 研究者使用另外两份数据集进行验证 , 检测Lip2Wav模型的泛化能力 。
他们使用了GRID和TCD-TIMIT数据集 , 其中的WER列为错误率?的衡量参数 。
表1
根据比较结果 , 和现有模型相比 , Lip2Wav模型得分最低 , 效果最好 。
而更有创意的是 , 研究者为弥补他们数据集过于针对个人风格的特点 , 还设计了人类评估的步骤 。 让人类志愿者进行客观评估 。
他们要求志愿者手动识别并报告A , 错误发音的百分比B , 单词跳字的百分比(单词跳读是指由于噪声或语调不清而完全无法理解的单词数量) , 以及C同音字的百分比 。
5.在无约束条件下的唇语合成
研究者进一步在包含大量头部动作和更多词汇的无约束数据集上评估了该研究方法 , 其中包含大量单词和句子之间的沉默或停顿 , 实验结果依然显现出明显的差距 。
为了与之前的研究方法对比 , 研究者基于STOI分值选择了在TIMIT数据集上性能最佳的模型 , 并展示了模型经过Lip2Wav数据集训练之后的性能 。 研究者计算了和表3相同的语音清晰度和质量指标 。
个人风格过强问题
作者发布之后 , 引起Reddit的热议 。
但吃瓜群众的疑问在于 , 他们的模型是否能够针对普通人进行语音合成 。