[发明专利]一种实体识别模型的生成方法、计算设备及可读存储介质在审
申请号: | 202110617986.7 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113378570A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 杨雷;雷涛;刘多星 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 高攀;赵爱军 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 模型 生成 方法 计算 设备 可读 存储 介质 | ||
本发明公开了一种实体识别模型的生成方法,在计算设备中执行,包括步骤:基于知识图谱生成实体集合以及实体集合中各实体之间的关系;每次从实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;基于多个文本语句生成第一标注数据集;以及基于第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。本发明一并公开了相应的计算设备及可读存储介质。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种实体识别模型的生成方法、计算设备及可读存储介质。
背景技术
近年来,随着知识图谱的应用在各个垂直领域的兴起,积累了包含大量知识量的知识图谱。在数据量的爆炸式增长的背景下,需要持续地从大量的非结构化的数据中挖掘出新的知识对知识图谱进行完善。在知识图谱领域中,命名实体识别是信息抽取、信息检索、机器翻译、以及问答系统等多种自然语言处理技术必不可少的技术。
传统的命名实体识别大多采用有监督的机器学习,其实体标注的训练主要来源于人工标注,会耗费大量的人力和时间成本。当前的采用远监督的方法生成实体标注训练集的方法,例如对百度百科等网页数据进行爬取,然后进行人为统计和分析数据,从而通过规则处理生成训练集,该方法虽然能够节约一定人力和时间成本,但是会由于统计的规则不全等因素导致脏数据的出现,以及训练数据的来源单一,致使命名实体识别在实际应用中的效果不理想。
因此,需要一种能够依赖较少已标注数据集就可以提供较高精确率的实体识别模型的生成方法。
发明内容
为此,本发明提供了一种实体识别模型的生成方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种实体识别模型的生成方法,在计算设备中执行,包括步骤:基于知识图谱生成实体集合以及所述实体集合中各实体之间的关系;每次从所述实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;基于所述多个文本语句生成第一标注数据集;以及基于所述第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选地,在根据本发明的实体识别模型的生成方法中,还包括:利用训练好的实体识别模型分别对真实语料库中的各文本语句进行实体识别;基于实体识别结果生成第二标注数据集;利用第二标注数据集对第一标注数据集进行扩充;基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型。
可选地,在根据本发明的实体识别模型的生成方法中,所述文本生成模型为LSTM、GAN、GPT-2中的任一个。
可选地,在根据本发明的实体识别模型的生成方法中,所述基于所述多个文本语句生成第一标注数据集的步骤,包括:将目标实体与文本语句进行字符串匹配,以确定目标实体在文本语句中的位置;对所述多个文本语句进行目标实体位置的标注;将标注好的文本语句添加到所述第一标注数据集。
可选地,在根据本发明的实体识别模型的生成方法中,所述实体识别模型包括BERT层、BiLSTM层以及CRF层。
可选地,在根据本发明的实体识别模型的生成方法中,所述利用第二标注数据集对第一标注数据集进行扩充的步骤包括:针对第一标注数据集和第二标注数据集中的每个文本语句,将所述每个文本语句中的实体替换为该实体对应的实体类型,分别得到第一标注数据集和第二标注数据集的模式语句;利用特征提取模型分别从第一标注数据集的模式语句和第二标注数据集的模式语句中提取语义特征向量;将第一标注数据集对应的语义特征向量和第二标注数据集的对应的语义特征向量两两进行相似度计算;如果相似度计算得分大于第一预定值,则将该第二标注数据集的模式语句对应的标注数据添加到所述第一标注数据集。
可选地,在根据本发明的实体识别模型的生成方法中,所述相似度采用余弦相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110617986.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:滨蒿内酯的新用途
- 下一篇:色偏补偿方法、显示器和车载显示装置