[发明专利]一种实体识别模型的生成方法、计算设备及可读存储介质在审
申请号: | 202110617986.7 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113378570A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 杨雷;雷涛;刘多星 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 高攀;赵爱军 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 模型 生成 方法 计算 设备 可读 存储 介质 | ||
1.一种实体识别模型的生成方法,在计算设备中执行,包括步骤:
基于知识图谱生成实体集合以及所述实体集合中各实体之间的关系;
每次从所述实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;
基于所述多个文本语句生成第一标注数据集;以及
基于所述第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
2.如权利要求1所述的方法,还包括:
利用训练好的实体识别模型分别对真实语料库中的各文本语句进行实体识别;
基于实体识别结果生成第二标注数据集;
利用第二标注数据集对第一标注数据集进行扩充;
基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型。
3.如权利要求1或2所述的方法,其中,所述文本生成模型为LSTM、GAN、GPT-2中的任一个。
4.如权利要求1-3中任一项所述的方法,其中,所述基于所述多个文本语句生成第一标注数据集的步骤,包括:
将目标实体与文本语句进行字符串匹配,以确定目标实体在文本语句中的位置;
对所述多个文本语句进行目标实体位置的标注;
将标注好的文本语句添加到所述第一标注数据集。
5.如权利要求1-4中任一项所述的方法,其中,所述实体识别模型包括BERT层、BiLSTM层以及CRF层。
6.如权利要求2所述的方法,其中,所述利用第二标注数据集对第一标注数据集进行扩充的步骤包括:
针对第一标注数据集和第二标注数据集中的每个文本语句,将所述每个文本语句中的实体替换为该实体对应的实体类型,分别得到第一标注数据集和第二标注数据集的模式语句;
利用特征提取模型分别从第一标注数据集的模式语句和第二标注数据集的模式语句中提取语义特征向量;
将第一标注数据集对应的语义特征向量和第二标注数据集的对应的语义特征向量两两进行相似度计算;
如果相似度计算得分大于第一预定值,则将该第二标注数据集的模式语句对应的标注数据添加到所述第一标注数据集。
7.如权利要求6所述的方法,其中,所述相似度采用余弦相似度。
8.如权利要求2-7中任一项所述的方法,其中,所述基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型的步骤,包括:
将扩充后的第一标注数据集作为训练集,对所述训练好的实体识别模型进行进一步训练;
选取扩充前的第一标注数据集中的一部分标注数据作为测试数据集,对进一步训练的实体识别模型进行测试,得到F1值;
当对对所述训练好的实体识别模型进行进一步训练的迭代次数达到预设次数,或者,F1值小于第二预定值时,停止进一步训练,得到最终的实体识别模型。
9.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110617986.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:滨蒿内酯的新用途
- 下一篇:色偏补偿方法、显示器和车载显示装置