[发明专利]语音测评方法、装置、电子设备及存储介质在审
申请号: | 201910106491.0 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109859741A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 林子盛;雷杰;王波 | 申请(专利权)人: | 成都终身成长科技有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/02;G10L15/06;G10L15/08;G10L15/14;G10L15/30 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 栾波 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 状态链 音频数据 匹配状态 测评 特征向量 存储介质 电子设备 目标状态 例句 语音 评分规则 特征提取 状态转移 参考 向后 预设 匹配 概率 申请 | ||
1.一种语音测评方法,其特征在于,所述方法包括:
获取待测评的音频数据;
对所述音频数据进行特征提取,获得与所述音频数据对应的多个特征向量;
获取用于表征所述音频数据对应的参考例句中每个词的排列顺序以及特征的第一状态链;
基于所述第一状态链和所述多个特征向量,获取多个待匹配状态链,其中,所述多个待匹配状态链中包括后跨状态链,所述后跨状态链表征所述参考例句中的前序词对应的状态向后序词对应的状态转移的概率不为0;
从所述多个待匹配状态链中确定出与所述多个特征向量匹配的目标状态链;
基于所述目标状态链、所述第一状态链以及预设评分规则,获得所述音频数据对应的第一评分。
2.根据权利要求1所述的方法,其特征在于,所述多个待匹配状态链中还包括前跨状态链,其中,所述前跨状态链表征所述参考例句中的所述后序词对应的状态向所述前序词对应的状态转移的概率不为0,获取多个待匹配状态链,包括:
在所述第一状态链中设置前跨转移路径,获取第二状态链,其中,所述前跨转移路径表征所述参考例句中的所述后序词对应的状态向所述前序词对应的状态转移,所述前跨转移路径对应的状态转移的概率不为0;
基于所述第二状态链和所述多个特征向量的数量,获取所述多个待匹配状态链。
3.根据权利要求1所述的方法,其特征在于,获取多个待匹配状态链,包括:
在所述第一状态链中设置后跨转移路径,获取第三状态链,其中,所述后跨转移路径表征所述参考例句中的所述前序词对应的状态向所述后序词对应的状态转移,所述后跨转移路径对应的状态转移的概率不为0;
基于所述第三状态链和所述多个特征向量的数量,获取所述多个待匹配状态链。
4.根据权利要求1所述的方法,其特征在于,从所述多个待匹配状态链中确定出与所述多个特征向量匹配的目标状态链,包括:
针对每个待匹配状态链,计算所述多个特征向量中的每个特征向量与该特征向量对应的状态匹配的匹配概率;
基于与该待匹配状态链对应的多个所述匹配概率和该待匹配状态链中相邻状态之间的状态转移概率,计算用于表征该待匹配状态链与所述多个特征向量匹配程度的匹配值;
将匹配值最大的待匹配状态链确定为所述目标状态链。
5.根据权利要求1所述的方法,其特征在于,获得所述音频数据对应的第一评分,包括:
基于所述预设评分规则、所述目标状态链中每个状态的所述匹配概率以及相邻状态之间的状态转移概率,获得用于表征所述音频数据对应的句子的准确度的第一得分;
基于所述预设评分规则,将所述目标状态链中状态种类的数量与所述第一状态链中的状态种类的数量比较,获得用于表征所述音频数据对应的句子的完整度的第二得分;
基于所述第一得分和所述第二得分,获得所述音频数据对应的第一评分。
6.根据权利要求1所述的方法,其特征在于,获得所述音频数据对应的第一评分之后,所述方法还包括:
基于所述音频数据的时间长度和所述预设评分规则,获得用于表征发音流利度的第三得分;
基于所述第三得分和所述第一评分,获得用于表征发音流利度、所述音频数据对应的句子的完整度以及准确度的第二评分。
7.根据权利要求1所述的方法,其特征在于,获取用于表征所述参考例句中每个词的排列顺序以及特征的第一状态链,包括:
基于声学模型和语言模型,获得用于表征所述参考例句中每个词的排列顺序以及特征的第一状态链。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都终身成长科技有限公司,未经成都终身成长科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910106491.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于多种方言识别的设备
- 下一篇:一种说话人分段聚类方法及装置