「AI语音评测」技术简述与应用层级( 三 )
文章插图
仅提供发音回放功
层级二:提供用户发音评分
层级二是个巨大的进步 , 因为这一步进入了「AI」领域;用户将给定文本的发音上传至评测引擎 , 引擎将评测得分反馈至用户 , 除此之外再无其他反馈 。
在很多情况下这只是一个临时的解决方案(一般受研发能力或产品阶段目标的限制) , 但无论是产品过渡还是功能尝试都可能是当时最优解决方案 。
本层级用户体验:用户收到了量化的反馈 , 也可以感知到一些自身的进步 , 但用户仍不知道怎样从70分变成100分 。
文章插图
层级三:细粒度评分反馈
层级三是在层级二的基础上 , 增加了细粒度的评分反馈 。
包括以下粒度的评分:
- 每个音素的评分;
- 每个单音/单词中发音和声调的单项评分和整体评分;
- 如果是句子 , 包括完整、流利、发音、语调、断句等多个维度的评分 。
本层级用户体验:用户可以更精准定位到发音问题所在 , 但对于“纠正发音问题”还差一步 。
文章插图
层级四:细粒度指导反馈
层级四是在层级三的基础上 , 增加了更加细致精确的指导反馈 。
为了更好理解这种指导反馈 , 这里举两个例子:
① 单词示例:英语文本grandmother[?ɡr?nm?e?r] 。
如用户实际发音为[?ɡr?ndm??d?r] , 则可给出的指导反馈有:
层级三中所有的单词得分反馈 。
层级四优化的单词反馈:
- “[m]的发音前不应该有[d]”;
- “[?]的发音不应该读成[??]”;
- “[e]的发音不应该读成[d]”;
② 句子示例:英语文本「I want to go to school.」 。
如用户实际发音为「I…want…to go go?」 , 则可给出的指导反馈有:
层级三中所有的句子得分反馈 。
单词示例①中单词示例的每一个单词音素的反馈 。
层级四优化的句子反馈:
- 完整度:遗漏词汇—to & school , 复读词汇—go;
- 语调:应该为降调 , 不应该为升调;
- 流利度:语速过慢 , 应加快速率;
- 断句:停顿过长—I和want之间 , want和to之间;
本层级用户体验:用户已经可以精确定位问题并且得到具体解决方法;但目前为止依旧还是文字式的反馈 , 无论用户是否懂得音素(音标) , 自然语音的反馈无疑更加容易接受 。
层级五:TTS结合
【「AI语音评测」技术简述与应用层级】层级四在语音评测指导反馈方面几乎达到了顶级 , 再结合自然语音的反馈会更加契合口语学习的场景 。
TTS技术简述:TTS(Text To Speech , 文本转语音)是语音合成应用的一种 , 它将文字或者文件转换成自然语音输出 , 主要的技术框架包括“MARY”、“SpeakRight Framework”、“Festival”、“FreeTTS”等 。
在层级四中 , 我们举例了英语单词grandmother[?ɡr?nm?e?r]误读为[?ɡr?ndm??d?r]的情况 。
结合TTS技术后 , 我们可以给出以下自然语音提示:
- 自然语音:“[m]前不应该有[d] , 请注意这个d不发音”;
- 自然语音:“[?]不应该读成[??] , 请注意长大嘴巴 , 不要发长音”;
- 「技术」这样的思路,让控制器中按键处理数据的方法变得简单了
- Chiplet如何开拓半导体技术的未来
- 高颜值vlog语音神器,塞宾智能蓝牙麦克风评测
- 物联网相关的技术、商业生态
- 学大数据是否有前途 如何系统掌握大数据技术
- Linux培训完能到什么水平,之后还需要学习哪些技术?
- 办公游戏两不误 台电G27一体机电脑评测
- 猛犸A5新国标电瓶车评测:除了无钥匙一键启动还有更香的
- 高性能需求用户首选,LMPDA双USB-C快充线评测
- 微纳机电系统与微纳传感器技术 发展报告摘要