[发明专利]命名实体纠错方法、装置、计算机设备和存储介质在审
申请号: | 202011493193.0 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112560493A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 宁义双;吴粤敏;宁可 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/232 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 袁武 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 纠错 方法 装置 计算机 设备 存储 介质 | ||
1.一种命名实体纠错方法,其特征在于,所述方法包括:
获取待纠错命名实体;
获取与所述待纠错命名实体的音节相匹配的候选命名实体;
获取所述待纠错命名实体所对应的待纠错声母集合,以及获取所述候选命名实体所对应的候选声母集合;
确定所述待纠错声母集合中的待纠错声母所对应的模糊声母;
确定所述模糊声母与对应的候选声母之间的声母差异值;所述候选声母在所述候选声母集合中;
获取所述待纠错命名实体所对应的待纠错韵母集合,以及获取所述候选命名实体所对应的候选韵母集合;
确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
确定所述模糊韵母与对应的候选韵母之间的韵母差异值;所述候选韵母在所述候选韵母集合中;
当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述获取待纠错命名实体,包括:
获取输入的语音数据;
将所述语音数据转换为对应的待纠错文本;
从所述待纠错文本中识别出待纠错命名实体;
所述方法还包括:
将所述待纠错文本中的待纠错命名实体替换为所述纠错后的命名实体,得到目标文本。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述待纠错命名实体的音节相匹配的候选命名实体,包括:
从分布式全文检索引擎中获取与所述待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
4.根据权利要求1所述的方法,其特征在于,所述确定所述待纠错声母集合中的待纠错声母所对应的模糊声母,包括:
当所述待纠错声母集合中的待纠错声母与对应的候选声母不相同,且所述待纠错声母位于声母模糊拼音字典中时,从所述声母模糊拼音字典中获取所述待纠错声母所对应的模糊声母;
所述确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母,包括:
当所述待纠错韵母集合中的待纠错韵母与对应的候选韵母不相同,且所述待纠错韵母位于韵母模糊拼音字典中时,从所述韵母模糊拼音字典中获取所述待纠错韵母所对应的模糊韵母。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当获取到与所述待纠错命名实体相同的候选命名实体时,将相同的候选命名实体作为纠错后的命名实体。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体,包括:
对所述声母差异值求和,得到声母差异和;
对所述韵母差异值求和,得到韵母差异和;
当所述声母差异和和所述韵母差异和之和满足预设差异值条件时,将所述候选命名实体作为纠错后的命名实体。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述候选命名实体的数量为至少两个;
所述获取所述候选命名实体所对应的候选声母集合,包括:
对于至少两个候选命名实体中每个候选命名实体,获取所述候选命名实体所对应的候选声母集合;
所述方法还包括:
当所述纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体;
响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011493193.0/1.html,转载请声明来源钻瓜专利网。