[发明专利]消歧方法、消歧模型的训练方法及装置有效
申请号: | 202111493472.1 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114417832B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 乔宏利;王洪斌;刘敏 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216;G06F40/289;G06F18/241;G06N3/0442;G06N3/08;G10L13/047;G10L13/08;G10L13/10;G10L25/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法 模型 训练 装置 | ||
本申请公开一种消歧方法、消歧模型的训练方法及装置。该方法包括:获取目标文本;获取目标文本的编码;对目标文本的编码进行处理,得到多个分类项分别对应的第一概率;基于掩码张量对多个分类项分别对应的第一概率进行掩码处理,得到多个分类项分别对应的第二概率;多个分类项中目标对象正确读音对应的第二概率大于目标对象正确读音对应的第一概率,多个分类项中目标对象错误读音对应的第二概率小于目标对象错误读音对应的第一概率。通过上述掩码操作,能排除多个分类项中针对目标对象的明显错误读音,缩小目标对象的预测范围,进而提高预测准确率。
技术领域
本申请涉及深度学习技术领域,更具体地,涉及一种消歧方法、消歧模型的训练方法及装置。
背景技术
从文本到语音(Text To Speech,TTS)技术广泛应用于语音助手、智能音箱、地图导航、智能客服等等领域。基于TTS技术的TTS模型的使用过程如下:将文本的音素序列输入TTS模型,由TTS模型输出该文本对应的语音。
汉语中存在众多多音字,给文本转音素带来困难,在文本转音素出现错误的情况下,TTS模型输出的语音也发生错误。
发明内容
本申请提供一种消歧方法、消歧模型的训练方法及装置。
第一方面,本申请实施例提供一种多音字预测方法,该方法包括:获取目标文本,目标文本包括至少一个目标对象;目标对象具有多个读音;获取目标文本的编码;对目标文本的编码进行处理,得到多个分类项分别对应的第一概率,分类项对应的第一概率表征预测出的目标对象的读音为分类项的概率;基于掩码张量对多个分类项分别对应的第一概率进行掩码处理,得到多个分类项分别对应的第二概率;多个分类项分别对应的第二概率用于确定多音字的预测结果;多个分类项中目标对象正确读音对应的第二概率大于目标对象正确读音对应的第一概率,多个分类项中目标对象错误读音对应的第二概率小于目标对象错误读音对应的第一概率。
第二方面,本申请实施例提供一种消歧模型的训练方法,方法包括:获取多个训练文本,多个训练文本中的每个训练文本包括训练对象,训练对象标注有正确读音;针对每一训练文本,通过初始模型对训练文本进行处理,输出训练文本中训练对象的预测读音;从初始模型中的掩码模块获取掩码估计值,基于掩码估计值和掩码真值获取第一损失;通过预测读音与训练文本中训练对象的正确读音获取第二损失;通过第一损失和第二损失对初始模型的参数进行迭代,得到消歧模型。
第三方面,本申请还提供一种多音字预测装置,该装置包括:文本获取模块,用于获取目标文本,目标文本包括至少一个目标对象,目标对象具有多个读音;编码获取模块,用于获取目标文本的编码;预测模块,用于对目标文本的编码进行处理,得到多个分类项分别对应的第一概率,分类项对应的第一概率表征预测出的目标对象的读音为分类项的概率;掩码模块,用于基于掩码张量对多个分类项分别对应的第一概率进行掩码处理,得到多个分类项分别对应的第二概率;多个分类项分别对应的第二概率用于确定多音字的预测结果;多个分类项中目标对象正确读音对应的第二概率大于目标对象正确读音对应的第一概率,多个分类项中目标对象错误读音对应的第二概率小于目标对象错误读音对应的第一概率。
第四方面,本申请实施例提供一种消歧模型的训练装置,装置包括:文本获取模块,用于获取多个训练文本,多个训练文本中的每个训练文本包括训练对象,训练对象标注有正确读音;预测模块,用于针对每一训练文本,通过初始模型对训练文本进行处理,输出训练文本中训练对象的预测读音;第一损失计算模块,用于从初始模型中的掩码模块获取掩码估计值,基于掩码估计值和掩码真值获取第一损失;第二损失计算模块,用于通过预测读音与训练文本中训练对象的正确读音获取第二损失;迭代模块,用于通过第一损失和第二损失对初始模型的参数进行迭代,得到消歧模型。
第五方面,本申请还提供一种电子设备,该电子设备包括处理器以及存储器,存储器存储有计算机程序指令,计算机程序指令被处理器调用时执行上述的消歧方法,或者,消歧模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111493472.1/2.html,转载请声明来源钻瓜专利网。