[发明专利]音译名识别规则的生成方法、装置、生成设备及存储介质在审
申请号: | 202110242748.2 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112883161A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 聂镭;齐凯杰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/295;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音译 识别 规则 生成 方法 装置 设备 存储 介质 | ||
本申请实施例适用于自然语言处理领域,提供了一种音译名识别规则的生成方法,该方法包括以下步骤:获取待处理文本样本,其中,待处理文本样本标注有第一音译名文本;提取第一音译名文本;根据第一音译名文本生成音译名识别规则,其中,音译名识别规则用于识别出待处理文本中的第二音译名文本。可见,本申请通过训练样本数据生成音译名识别规则,从而根据音译名识别规则识别出中文文本中包含音译的外国人人名,提高了中文的命名实体识别现阶段中的识别准确率。
技术领域
本申请属于自然语言处理领域,尤其涉及一种音译名识别规则的生成方法、装置、生成设备及存储介质。
背景技术
中文的命名实体识别现阶段主要是实现人名、地名、组织等类型的实体识别,其中人名的识别对于中文名识别结果已有相对较成熟的手段,
但是当中文文本中包含音译的外国人名时识别结果还相对较差。音译名的外国人名长度不定且没有明显的边界标志词,导致在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名,从而导致识别准确率较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种音译名识别规则的生成方法、装置、生成设备及存储介质,以解决在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名,从而导致识别准确率较低的问题。
本申请实施例的第一方面提供了一种音译名识别规则的生成方法,包括:
获取待处理文本样本,其中,所述待处理文本样本标注有第一音译名文本;
提取所述第一音译名文本;
根据所述第一音译名文本生成所述音译名识别规则,其中,所述音译名识别规则用于识别出待处理文本中的第二音译名文本。
在第一方面的一种可能的实现方式中,根据所述音译名文本生成所述音译名识别规则,包括:
根据所述第一音译名文本构建音译名数据库;
在所述音译名数据库中确定出所述第一音译名文本中各个字对应的频率;
根据所述第一音译名文本中各个字对应的频率生成音译名识别规则。
在第一方面的一种可能的实现方式中,根据所述第一音译名文本中各个字对应的频率构建音译名识别规则,包括:
根据所述第一音译名文本中各个字对应的频率得到频率阈值;
根据下式得到音译名识别规则:
,
其中,i=1,2,...,n,min(Pi)表示待处理文本的词组中字的最小频率,P阈值表示频率阈值,当所述待处理文本的词组中字的最小频率大于所述频率阈值,则确认所述待处理文本中的词组为第二音译名文本。
在第一方面的一种可能的实现方式中,提取所述第一音译名文本之前,还包括:
划分所述待处理文本样本为第一文本样本和第二文本样本,其中,所述第一文本样本包含人名,第二文本样本不包含人名;
将所述第一文本样本输入至预设的分类模型进行训练,得到人名识别模型;
其中,所述人名识别模型用于作为与所述音译名识别规则对应的前置筛选规则,在音译名识别规则识别出待处理文本中的第二音译名文本之前,筛选出所述待处理文本中的人名。
在第一方面的一种可能的实现方式中,根据所述第一音译名文本生成所述音译名识别规则之后,还包括:
在所述待处理文本样本中提取所述第一音译名的左邻字以及右邻字;
根据所述左邻字形成前缀语料库;
根据所述右邻字形成后缀语料库;
基于所述前缀语料库以及所述后缀语料库,生成与所述音译名识别规则对应的检验规则,所述检验规则用于在所述音译名识别机制识别出待处理文本中的第二音译名文本之后,对所述第二音译名文本进行校验。
本申请实施例的第二方面提供了一种音译名识别规则的生成装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110242748.2/2.html,转载请声明来源钻瓜专利网。