[发明专利]实体抽取方法及装置在审
| 申请号: | 202010039059.7 | 申请日: | 2020-01-14 |
| 公开(公告)号: | CN113128227A | 公开(公告)日: | 2021-07-16 |
| 发明(设计)人: | 张春荣 | 申请(专利权)人: | 普天信息技术有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
| 地址: | 100080 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 抽取 方法 装置 | ||
本发明实施例提供一种实体抽取方法及装置,所述方法包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。本发明实施例提供的实体抽取方法及装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种实体抽取方法及装置。
背景技术
实体抽取是知识图谱构建的基本技术之一,与实体链接、实体关系抽取、事件抽取是知识图谱构建的关键。实体抽取,又称命名实体识别(Named Entity Recognition,NER),是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可,一些系统还会给出专有名词结果(比如缩写、会议名、产品名等)。货币、百分比等数字类实体可通过正则搞定。另外,在一些应用场景下会给出特定领域内的实体,如书名、歌曲名、期刊名等。NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。目前实体抽取的研究状态:只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,命名实体识别评测语料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。
在基于机器学习的方法中,实体抽取NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。这类方法对于序列标注任务的处理方式是类似的:采用word2vec将token从离散one-hot表示映射到低维空间中成为稠密的词向量embedding,随后将句子的词向量embedding序列输入到循环神经网络RNN中,用循环神经网络自动提取特征,Softmax来预测每个字或词的标签。
首先,对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。其次,这种方法使得模型的训练成为一个端到端的过程,而非传统的pipeline,不依赖于特征工程,是一种数据驱动的方法,但网络种类繁多、对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的实体抽取方法及装置。
第一方面,本发明实施例提供一种实体抽取方法,包括:
获取待识别文本;
将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010039059.7/2.html,转载请声明来源钻瓜专利网。





