「AI语音评测」技术简述与应用层级( 三 )


「AI语音评测」技术简述与应用层级文章插图
仅提供发音回放功
层级二:提供用户发音评分
层级二是个巨大的进步 , 因为这一步进入了「AI」领域;用户将给定文本的发音上传至评测引擎 , 引擎将评测得分反馈至用户 , 除此之外再无其他反馈 。
在很多情况下这只是一个临时的解决方案(一般受研发能力或产品阶段目标的限制) , 但无论是产品过渡还是功能尝试都可能是当时最优解决方案 。
本层级用户体验:用户收到了量化的反馈 , 也可以感知到一些自身的进步 , 但用户仍不知道怎样从70分变成100分 。
「AI语音评测」技术简述与应用层级文章插图
层级三:细粒度评分反馈
层级三是在层级二的基础上 , 增加了细粒度的评分反馈 。
包括以下粒度的评分:

  • 每个音素的评分;
  • 每个单音/单词中发音和声调的单项评分和整体评分;
  • 如果是句子 , 包括完整、流利、发音、语调、断句等多个维度的评分 。
层级三评测已经进入到细粒度(音素)级别 , 但除了细粒度的评分结果外 , 没有其他内容的反馈 。
本层级用户体验:用户可以更精准定位到发音问题所在 , 但对于“纠正发音问题”还差一步 。
「AI语音评测」技术简述与应用层级文章插图
层级四:细粒度指导反馈
层级四是在层级三的基础上 , 增加了更加细致精确的指导反馈 。
为了更好理解这种指导反馈 , 这里举两个例子:
① 单词示例:英语文本grandmother[?ɡr?nm?e?r] 。
如用户实际发音为[?ɡr?ndm??d?r] , 则可给出的指导反馈有:
层级三中所有的单词得分反馈 。
层级四优化的单词反馈:
  • “[m]的发音前不应该有[d]”;
  • “[?]的发音不应该读成[??]”;
  • “[e]的发音不应该读成[d]”;
示例小结:以上反馈直接展示了音素级别的错误与正确读法的差别 。
② 句子示例:英语文本「I want to go to school.」 。
如用户实际发音为「I…want…to go go?」 , 则可给出的指导反馈有:
层级三中所有的句子得分反馈 。
单词示例①中单词示例的每一个单词音素的反馈 。
层级四优化的句子反馈:
  • 完整度:遗漏词汇—to & school , 复读词汇—go;
  • 语调:应该为降调 , 不应该为升调;
  • 流利度:语速过慢 , 应加快速率;
  • 断句:停顿过长—I和want之间 , want和to之间;
示例小结:以上反馈多维度展示了句子中错误与正确情况的差别 。
本层级用户体验:用户已经可以精确定位问题并且得到具体解决方法;但目前为止依旧还是文字式的反馈 , 无论用户是否懂得音素(音标) , 自然语音的反馈无疑更加容易接受 。
层级五:TTS结合
【「AI语音评测」技术简述与应用层级】层级四在语音评测指导反馈方面几乎达到了顶级 , 再结合自然语音的反馈会更加契合口语学习的场景 。
TTS技术简述:TTS(Text To Speech , 文本转语音)是语音合成应用的一种 , 它将文字或者文件转换成自然语音输出 , 主要的技术框架包括“MARY”、“SpeakRight Framework”、“Festival”、“FreeTTS”等 。
在层级四中 , 我们举例了英语单词grandmother[?ɡr?nm?e?r]误读为[?ɡr?ndm??d?r]的情况 。
结合TTS技术后 , 我们可以给出以下自然语音提示: