思必驰高自然度可定制的语音合成(TTS)技术,如何练成的 ?
语音合成(Text to Speech , TTS)又称文本语音转换技术 , 顾名思义 , 是把文本信息转化成语音信息 。 它是对话式人工智能的最后一环 , 也是关键一环 , 它的效果直接影响着人机语音交互的体验 。
思必驰作为国内领先的对话式人工智能平台公司 , 它的语音合成技术表现究竟如何?
人的语音 , 本质上是发音器官震动 , 产生声波传出 。 模仿人声 , 最古老的方法是使用乐器 。 到19世纪 , 就可以用机械方法产生语音了 。 那时 , 科学家们会制作出一些精巧的气囊和风箱去搭建发声系统 , 合成出一些元音和单音 。
本文插图
人类发音示意图进入电子时代的1939年 , 贝尔实验室H·杜德利制作出第一台电子合成器 , 这是用共振峰原理制作的语音合成器 , 该技术使用固定频率 , 以电子复制我们改变口型时所发出的元音声 , 也这正是英国剑桥大学著名物理学家斯蒂芬·霍金教授所使用的声音合成器 。
上世纪90年代 , 随着计算和存储能力大幅度提升 , 基于大语料库的单元挑选与波形拼接合成方法出现 , 可以合成出高质量的自然人语音 。
本文插图
语音合成技术演变进入21世纪 , 随着深度学习技术的兴起和快速发展 , 以语音合成为代表的语音处理技术得到了极大的飞跃 。 神经网络语音合成在近几年来取得了显著突破 , 合成?的?质和?然度越来越? , 运?速度也越来越快 。 思必驰目前所使用的 , 也正是这种方法 。
早在2007年于英国剑桥大学创立时 , 思必驰关于语音合成技术研究就已开启 , 该项工作由思必驰联合创始人兼首席科学家、上海交通大学教授俞凯领头 。
语音合成系统主要分为文本处理、声学模型、声码器三个部分 。 文本处理负责对文本进行转写和phoneme序列转换;声学模型使用深度神经网络 , 可以在文本特征与声学特征之间学习到更复杂的非线性关系;声码器负责将声学模型输出的声学特征 , 通过卷积运算 , 转换成音频 。
经过10多年的研究积累 , 思必驰在建模方法上 , 涵盖了从传统的统计参数模型到最新的基于神经网络的方法;对声码器的研究 , 涵盖了从传统的基于信号处理的方法到最新的基于神经网络的方法 。
语音合成的质量与效果 , 既有赖于语音厂商的算法模型 , 还取决于音频语料的质量 , 即数据质量 。 思必驰有着丰富的声优资源以及声优挑选的经验 , 在苏州建设有专业录?棚并与国内多个城市的录?棚有着长久合作关系 。 与此同时 , 思必驰数据团队也对数据标注有着严格的质量把控 。
- 市场规模|人与自然和谐共生教育:陆生动物(三)?
- 微生物|全自动微生物生长曲线分析仪,是我们亲近大自然的垫脚石之一
- 癌细胞|为什么自然界中的动物不怕生肉的寄生虫,反而怕受伤呢?
- 后代|自然界中,有没有为了保护自己牺牲孩子的动物?为什么?
- |人与自然和谐共生教育:陆生动物(四)?
- 抗体|《自然》:发现促进抗体产生的关键基因
- |大自然里带刺的可爱的小动物们
- 青岛市|干货!抖音直播付费流量撬动自然流量的核心逻辑
- 小行星|自然系为何作为前期的最强种?响雷果实堪称无敌,暗暗果实最特殊
- 火山|25张照片告诉你自然灾害的威力,人类太渺小了...