[发明专利]一种元音弱读检测方法及装置有效

申请号：	202110455748.0	申请日：	2021-04-26
公开（公告）号：	CN113066510B	公开（公告）日：	2022-08-12
发明（设计）人：	王丽;柳宗铭;张鹏远;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/18;G10L25/30;G10L25/51;G09B19/06
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种元音检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种元音弱读检测方法，其特征在于，所述方法包括：

对用户朗读目标文本的语音信号进行特征提取，获得声学特征向量序列；

利用编码器网络对所述声学特征向量序列进行编码，获得声学编码向量序列；

采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合；所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得；

利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列；

采用波束搜索方法对第四音素概率序列进行波束搜索，获得所述语音信号对应的带元音弱读标签的音素序列；所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得，所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得，所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。

2.根据权利要求1所述的方法，其特征在于，所述采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合包括：

将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络，获得当前迭代的第三加权向量；其中，所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得，所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得；

基于所述当前迭代的第三加权向量，对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和，获得当前迭代次数的融合编码向量。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第一注意力网络，获得所述当前迭代次数的第一权值向量，以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第二注意力网络，获得所述当前迭代次数的第二权值向量。

4.根据权利要求1所述的方法，其特征在于，所述利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列包括：

将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量，输入所述解码器网络进行解码，获得所述第三音素概率序列。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取训练样本；所述训练样本包括：语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本；

根据所述训练样本和损失函数，采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络；所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110455748.0/1.html，转载请声明来源钻瓜专利网。