[发明专利]命名实体识别方法、装置和计算机设备有效
| 申请号: | 201910164478.0 | 申请日: | 2019-03-05 |
| 公开(公告)号: | CN109858040B | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 刘志煌;杨凡;黄斐;龚磊;方高林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆;李文渊 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 方法 装置 计算机 设备 | ||
本申请涉及一种命名实体识别方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取当前业务场景的频繁序列文本模式对应的正则表达式,将待提取文本与所述正则表达式进行模式匹配,根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种命名实体识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又作为“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、作品名词、特定意义的网络词汇、其他专有名词等,以及时间、数量、货币、比例数值等文字。命名实体识别在实际应用中有广泛的应用场景,比如兴趣点的实体名称,搜索的实体确定,支付中的支付主题确定等。
命名实体识别在各个领域中已有广泛的应用,目前进行命名实体识别的方法主要如基于深度学习模型的方法。而对于字模型的深度学习神经网络模型,随着字标签数目增加,调参工作量很大,导致命名实体识别效率低。
发明内容
基于此,有必要针对命名实体识别效率低的技术问题,提供一种命名实体识别方法、装置、计算机可读存储介质和计算机设备。
一种命名实体识别方法,包括:
获取当前业务场景的频繁序列文本模式对应的正则表达式;
将待提取文本与所述正则表达式进行模式匹配;
根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。
一种命名实体识别装置,其特征在于,所述装置包括:
正则获取模块,用于获取当前业务场景的频繁序列文本模式对应的正则表达式;
正则匹配模块,用于将待提取文本与所述正则表达式进行模式匹配;
实体识别模块,用于根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述各实施例所述的方法的步骤。
一种计算机可读存储介质,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述各实施例所述的方法的步骤。
上述命名实体识别方法、装置、计算机可读存储介质和计算机设备,利用了业务场景中业务文本数据存在文本模式频繁出现的特征,挖掘得到频繁序列文本模式,并将频繁序列文本模式转换成正则表达式,利用匹配的正则表达式抽取待提取文本的命名实体。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。
附图说明
图1为一个实施例中命名实体识别方法的应用环境图;
图2为一个实施例中命名实体识别方法的流程示意图;
图3为一个实施例中挖掘得到频繁序列文本模式的步骤的流程示意图;
图4为一个实施例中对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910164478.0/2.html,转载请声明来源钻瓜专利网。





