「AI语音评测」技术简述与应用层级( 三 ) 编辑导语：随着科技的发展

文章插图
仅提供发音回放功
层级二：提供用户发音评分
层级二是个巨大的进步，因为这一步进入了「AI」领域；用户将给定文本的发音上传至评测引擎，引擎将评测得分反馈至用户，除此之外再无其他反馈。
在很多情况下这只是一个临时的解决方案（一般受研发能力或产品阶段目标的限制），但无论是产品过渡还是功能尝试都可能是当时最优解决方案。
本层级用户体验：用户收到了量化的反馈，也可以感知到一些自身的进步，但用户仍不知道怎样从70分变成100分。
文章插图
层级三：细粒度评分反馈
层级三是在层级二的基础上，增加了细粒度的评分反馈。
包括以下粒度的评分：

每个音素的评分；
每个单音/单词中发音和声调的单项评分和整体评分；
如果是句子，包括完整、流利、发音、语调、断句等多个维度的评分。

层级三评测已经进入到细粒度（音素）级别，但除了细粒度的评分结果外，没有其他内容的反馈。
本层级用户体验：用户可以更精准定位到发音问题所在，但对于“纠正发音问题”还差一步。

文章插图
层级四：细粒度指导反馈
层级四是在层级三的基础上，增加了更加细致精确的指导反馈。
为了更好理解这种指导反馈，这里举两个例子：
① 单词示例：英语文本grandmother[?ɡr?nm?e?r] 。
如用户实际发音为[?ɡr?ndm??d?r] ，则可给出的指导反馈有：
层级三中所有的单词得分反馈。
层级四优化的单词反馈：

“[m]的发音前不应该有[d]”；
“[?]的发音不应该读成[??]”；
“[e]的发音不应该读成[d]”；

示例小结：以上反馈直接展示了音素级别的错误与正确读法的差别。
② 句子示例：英语文本「I want to go to school.」。
如用户实际发音为「I…want…to go go?」，则可给出的指导反馈有：
层级三中所有的句子得分反馈。
单词示例①中单词示例的每一个单词音素的反馈。
层级四优化的句子反馈：

完整度：遗漏词汇—to & school ，复读词汇—go；
语调：应该为降调，不应该为升调；
流利度：语速过慢，应加快速率；
断句：停顿过长—I和want之间， want和to之间；

示例小结：以上反馈多维度展示了句子中错误与正确情况的差别。
本层级用户体验：用户已经可以精确定位问题并且得到具体解决方法；但目前为止依旧还是文字式的反馈，无论用户是否懂得音素(音标) ，自然语音的反馈无疑更加容易接受。
层级五：TTS结合
【「AI语音评测」技术简述与应用层级】层级四在语音评测指导反馈方面几乎达到了顶级，再结合自然语音的反馈会更加契合口语学习的场景。
TTS技术简述：TTS（Text To Speech ，文本转语音）是语音合成应用的一种，它将文字或者文件转换成自然语音输出，主要的技术框架包括“MARY”、“SpeakRight Framework”、“Festival”、“FreeTTS”等。
在层级四中，我们举例了英语单词grandmother[?ɡr?nm?e?r]误读为[?ɡr?ndm??d?r]的情况。
结合TTS技术后，我们可以给出以下自然语音提示：

自然语音：“[m]前不应该有[d] ，请注意这个d不发音”；
自然语音：“[?]不应该读成[??] ，请注意长大嘴巴，不要发长音”；