[发明专利]音译名识别规则的生成方法、装置、生成设备及存储介质在审

申请号：	202110242748.2	申请日：	2021-03-05
公开（公告）号：	CN112883161A	公开（公告）日：	2021-06-01
发明（设计）人：	聂镭;齐凯杰;聂颖	申请（专利权）人：	龙马智芯（珠海横琴）科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/216;G06F40/295;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	519031 广东省珠海市横琴新区环岛***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音译识别规则生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例适用于自然语言处理领域，提供了一种音译名识别规则的生成方法，该方法包括以下步骤：获取待处理文本样本，其中，待处理文本样本标注有第一音译名文本；提取第一音译名文本；根据第一音译名文本生成音译名识别规则，其中，音译名识别规则用于识别出待处理文本中的第二音译名文本。可见，本申请通过训练样本数据生成音译名识别规则，从而根据音译名识别规则识别出中文文本中包含音译的外国人人名，提高了中文的命名实体识别现阶段中的识别准确率。

技术领域

本申请属于自然语言处理领域，尤其涉及一种音译名识别规则的生成方法、装置、生成设备及存储介质。

背景技术

中文的命名实体识别现阶段主要是实现人名、地名、组织等类型的实体识别，其中人名的识别对于中文名识别结果已有相对较成熟的手段，

但是当中文文本中包含音译的外国人名时识别结果还相对较差。音译名的外国人名长度不定且没有明显的边界标志词，导致在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名，从而导致识别准确率较低的问题。

发明内容

有鉴于此，本申请实施例提供了一种音译名识别规则的生成方法、装置、生成设备及存储介质，以解决在中文的命名实体识别现阶段中由于无法识别出包含音译的外国人名，从而导致识别准确率较低的问题。

本申请实施例的第一方面提供了一种音译名识别规则的生成方法，包括：

获取待处理文本样本，其中，所述待处理文本样本标注有第一音译名文本；

提取所述第一音译名文本；

根据所述第一音译名文本生成所述音译名识别规则，其中，所述音译名识别规则用于识别出待处理文本中的第二音译名文本。

在第一方面的一种可能的实现方式中，根据所述音译名文本生成所述音译名识别规则，包括：