[发明专利]一种音译名识别方法、装置、识别设备及可读存储介质在审
申请号: | 202110242757.1 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112883162A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 聂镭;齐凯杰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/284;G06F40/295;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音译 识别 方法 装置 设备 可读 存储 介质 | ||
1.一种音译名识别方法,其特征在于,该方法包括:
获取待处理文本;
对所述待处理文本进行分词处理,得到待识别词组,其中,所述待处理文本包括至少一个所述待识别词组;
调用预设的音译名识别规则;
根据所述音译名识别规则对所述待识别词组进行识别,得到音译名识别结果,其中,所述音译名识别结果包括识别出为音译名的待识别词组。
2.如权利要求1所述的音译名识别方法,其特征在于,调用预设的音译名识别规则,包括:
提取所述待处理文本的文本属性;
调用与所述文本属性对应的音译名数据库。
3.如权利要求2所述的音译名识别方法,其特征在于,根据所述音译名识别规则识别所述待识别词组,得到音译名识别结果,包括:
将所述待识别词组输入至所述音译名数据库中,得到所述待识别词组中各个字对应的频率;
根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果。
4.如权利要求2所述的音译名识别方法,其特征在于,将所述待识别词组输入至所述音译名数据库中,得到所述待识别词组中各个字对应的频率之前,还包括:
根据预设的人名识别模型识别分词处理后得到的所述待识别词组,生成人名识别结果;其中,所述人名识别结果包括识别出包含人名的待识别词组;
将人名识别结果为包含人名的待识别词组作为输入至所述音译名数据库前的所述待识别词组。
5.如权利要求3所述的音译名识别方法,其特征在于,根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果,包括:
根据下式得到确定所述待识别词组的内部凝固程度是否符合第一预设条件:
,
其中,i=1,2,...,n,min(Pi)表示待识别词组中字的最小频率,P阈值表示频率阈值;
当所述待识别词组的内部凝固程度符合第一预设条件则确定所述待识别词组为音译名。
6.如权利要求3所述的音译名识别方法,其特征在于,根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果之后,还包括:
提取所述音译名识别结果中的音译名;
对所述音译名进行校验,得到校验结果;
剔除所述音译名识别结果中不符合第二预设条件的校验结果对应的音译名。
7.如权利要求6所述的音译名识别方法,其特征在于,所述校验结果包括第一词性校验结果和第二词性校验结果;
对所述音译名进行校验,得到校验结果,包括:
将所述音译名输入至预设的前缀语料库中,得到所述音译名对应的左邻字;
将所述音译名输入至预设的后缀语料库中,得到所述音译名对应的右邻字;
对所述左邻字进行第一词性分析,得到第一词性校验结果;
对所述右邻字进行第二词性分析,得到第二词性校验结果。
8.一种音译名识别装置,其特征在于,该装置包括:
获取模块,用于获取待处理文本;
分词处理模块,用于对所述待处理文本进行分词处理,得到待识别词组,其中,所述待处理文本包括至少一个所述待识别词组;
调用模块,用于调用预设的音译名识别规则;
识别模块,用于根据所述音译名识别规则识别所述待识别词组,得到音译名识别结果。
9.识别设备,包括存储器、处理器、摄像装置以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
10.可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的各个步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110242757.1/1.html,转载请声明来源钻瓜专利网。