按关键词阅读: 分析 系统 语音 影响 基于 性能 识别 场景 噪音
语言模型采用二元语法 。
由于我们要考察的是噪音场景对于 。
14、系统性能的影响 , 所以系统没有采取如语音增强等噪音鲁棒技术 , 可以排除其他可能会对性能造成影响的因素 。
原始无噪音训练数据是863基础语音库 , 原始无噪音测试数据是来自于北方音库 , 都是标准普通话发音 。
具体信息如表1所示 。
语音数据按16kHz采样频率数字化 , 各个采样点用16位进行量化 , 都是PCM WAV编码格式 。
表1. 原始无噪音训练和测试数据集说话人个数总时长单句个数男女训练集100100100小时71639测试集10101小时1200噪音数据:文章采集的噪音场景数据包括室内、室外及交通工具各种场景 , 都是现场录音 。
录入设备采用IBM笔记本电脑外加Sound BLASTER Audigy 2 ZS专业声 。
15、卡 , 录入软件采用Cool Edit pro 2.0 , 按16kHz采样频率数字化 , 各个采样点用16位进行量化 , 存储到计算机中 。
3.1 四种典型噪音场景的效应分析首先验证效应的显著性 。
运用析因设计方法安排语音识别实验 , 选择四种人耳感觉有明显差异的噪音场景数据作为训练和测试的四个水平(factory、restaurant、taxi、white) 。
把四个噪音数据按相同的信噪比(10dB)线性叠加到原始无噪训练集和测试集 , 得到四个训练集和四个测试集 。
采用LVCSR系统 , 分别用四个训练集训练 , 得到四个识别系统 , 再用四个测试集对这四个识别系统分别进行测试 , 得到16组识别结果 。
每个测试集按不同说话人分成20个 。
16、子集 , 作为20次重复试验统计字错误率 。
然后采用直观分析法以及假设检验法对识别结果进行分析 。
图2列出的是4种训练与测试集两两交叉实验统计出的总字错误率 。
图2. 四种典型噪音场景的语音识别实验测试结果直观分析法:作图 , 对测试的每一个水平分别作训练因素和指标的关系图 , 如图3所示 。
从图中可看出 , 四条折线不平行有交叉 , 说明训练和测试有交互作用;并且每一条同色折线都与其他三条不同色折线有交点 , 说明训练和测试对于任意两种噪音之间都存在交互作用;并且每条折线的最低处总是在训练与测试水平一致的时候 , 说明这种交互作用表现在当训练和测试数据一致的时候 , 性能要好 。
图3四场景的训练和测试两因素的关系图假设检验法:利用S 。
17、AS统计软件9对16组测试结果(每组统计20个字错误率)进行假设检验 , 结果如图4所示 , 三个因素的Pr值都小于显著性水平0.05 , 在统计学上通常认为当Pr=20)个不同的噪音数据文件分别对原始无噪训练数据和原始无噪测试数据作线性叠加 。
信噪比为10dB , 形成n个不同训练集和测试集 。
对训练和测试两因素作析因设计 , 不同的场景类型看作训练和测试的不同水平 , 训练和测试都有n个水平 , 因而要用LVCSR系统作nn的实验 , 并分别根据不同说话人统计字错误率 。
按表2方案选取实验得到的数据 , 两两考察噪音场景之间的训练效应 , 取两个不同的训练场景 , 作为因素一来考察 , 它有两水平(训练场景A和训练场景B) , 另一个因素是测试因 。
18、素(它有n个水平 , 对应n种不同测试场景) 。
双因素方差分析法考察训练因素的显著性作用 。
测试训练表2. 双因素方差分析示例场景1场景2场景3场景n场景ADataA1DataA2DataA3DataAn场景BDataB1DataB2DataB3DataBnDataij (i=A,B;
j=1,2n)是用Trai数据训练Tesj数据测试的在20个不同说话人情况下的20个分错误率 , 作为重复试验结果 。
运用MATLAB或SAS对数据进行双因素方差分析 , 可以得出训练场景两两之间的对系统性能的影响效应有些是显著性的 , 有些是不显著的 。
比如工厂和出租车内两种噪音场景对系统性能的影响是显著的 , 如表3所示 , 训练因素(R 。
19、ows)的Pr值为0.0006 显著性水平0.05 。
我们用估计出的各训练场景之间的非显著性概率Pr值作为不同场景两两之间的相似度 。
不同噪音场景两两之间的相似度越大 , 说明两种噪音对系统性能的显著性影响越小 , 从而两个场景聚为同一类的可能性就越大 。
最后用系统聚类法可对不同场景进行聚类 。
表3 Matlab双因素方差分析表(工厂和出租车)SourceFProbFColumns7.6560Rows11.9270.000587Interaction10.39270表4 Matlab双因素方差分析表(超市和食堂)SourceFProbFColumns10.82950Rows0.0764880.7822Inte 。
20、raction0.0977414 基于训练效应的聚类基于训练效应的噪音场景聚类就是对依据噪音场景的训练效应对噪音场景进行聚类 。
稿源:(未知)
【傻大方】网址:/a/2021/0813/0023654548.html
标题:基于|基于语音识别系统性能影响的噪音场景分析( 三 )