[发明专利]一种音译名识别方法、装置、识别设备及可读存储介质在审
申请号: | 202110242757.1 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112883162A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 聂镭;齐凯杰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/284;G06F40/295;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音译 识别 方法 装置 设备 可读 存储 介质 | ||
本申请实施例适用于自然语言处理领域,提供了一种音译名识别方法、置、识别设备以及可读存储介质,该方法包括以下步骤:获取待处理文本;对待处理文本进行分词处理,得到待识别词组,其中,待处理文本包括至少一个待识别词组;调用预设的音译名识别规则;根据音译名识别规则对待识别词组进行识别,得到音译名识别结果,其中,音译名识别结果包括识别出为音译名的待识别词组。可见,本申请实施例可以通过预设的音译名识别规则识别出中文文本中包含音译的外国人人名,提高了中文的命名实体识别现阶段中的识别准确率。
技术领域
本申请属于自然语言处理领域,尤其涉及一种音译名识别方法、装置、识别设备及可读存储介质。
背景技术
中文的命名实体识别现阶段主要是实现人名、地名、组织等类型的实体识别,其中人名的识别对于中文名识别结果已有相对较成熟的手段,
但是当中文文本中包含音译的外国人名时识别结果还相对较差。音译名的外国人名长度不定且没有明显的边界标志词,导致在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名,从而导致识别准确率较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种音译名识别方法、装置、识别设备及可读存储介质,以解决在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名,从而导致识别准确率较低的问题。
本申请实施例的第一方面提供了一种音译名识别方法,包括:
获取待处理文本;
对所述待处理文本进行分词处理,得到待识别词组,其中,所述待处理文本包括至少一个所述待识别词组;
调用预设的音译名识别规则;
根据所述音译名识别规则对所述待识别词组进行识别,得到音译名识别结果,其中,所述音译名识别结果包括识别出为音译名的待识别词组。
在第一方面的一种可能的实现方式中,调用预设的音译名识别规则,包括:
提取所述待处理文本的文本属性;
调用与所述文本属性对应的音译名数据库。
在第一方面的一种可能的实现方式中,根据所述音译名识别规则识别所述待识别词组,得到音译名识别结果,包括:
将所述待识别词组输入至所述音译名数据库中,得到所述待识别词组中各个字对应的频率;
根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果。
在第一方面的一种可能的实现方式中,将所述待识别词组输入至所述音译名数据库中,得到所述待识别词组中各个字对应的频率之前,还包括:
根据预设的人名识别模型识别分词处理后得到的所述待识别词组,生成人名识别结果;其中,所述人名识别结果包括识别出包含人名的待识别词组;
将人名识别结果为包含人名的待识别词组作为输入至所述音译名数据库前的所述待识别词组。
在第一方面的一种可能的实现方式中,根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果,包括:
根据下式得到确定所述待识别词组的内部凝固程度是否符合第一预设条件:
,
其中,i=1,2,...,n,min(Pi)表示待识别词组中字的最小频率,P阈值表示频率阈值;
当所述待识别词组的内部凝固程度符合第一预设条件则确定所述待识别词组为音译名。
在第一方面的一种可能的实现方式中,根据所述待识别词组中各个字对应的频率得到所述待识别词组的音译名识别结果之后,还包括:
提取所述音译名识别结果中的音译名;
对所述音译名进行校验,得到校验结果;
剔除所述音译名识别结果中不符合第二预设条件的校验结果对应的音译名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110242757.1/2.html,转载请声明来源钻瓜专利网。