[发明专利]一种命名实体的提取方法、装置、电子设备及存储介质在审
| 申请号: | 202010949598.4 | 申请日: | 2020-09-10 |
| 公开(公告)号: | CN112069821A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 张鹏涛;景艳山 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/126;G06F16/35 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
| 地址: | 100082 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 命名 实体 提取 方法 装置 电子设备 存储 介质 | ||
1.一种命名实体的提取方法,其特征在于,所述提取方法包括:
将目标文本输入到预先训练好的编码模型中,获取所述编码模型输出的所述目标文本对应的第一文本矩阵;
基于所述目标文本对应的第一文本矩阵,确定所述目标文本对应的第一首指针集合和第一尾指针集合;所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值;所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值;
根据所述第一首指针集合中的所述第一特征值,以及所述第一尾指针集合中的所述第二特征值,从所述目标文本中提取命名实体,并确定所述命名实体对应的类别。
2.根据权利要求1所述的命名实体的提取方法,其特征在于,所述基于所述目标文本对应的第一文本矩阵,确定所述目标文本对应的第一首指针集合和第一尾指针集合,包括:
基于预先训练好的标准矩阵,对所述目标文本对应的第一文本矩阵进行矩阵变换,得到所述目标文本中每个字归属于所述预设类别的第一概率;
针对所述目标文本中的每个字,根据该字归属于所述预设类别的第一概率,所述目标文本中其他字归属于所述预设类别的第一概率,以及所述其他字与该字的位置关系,确定该字是否为满足预设类别的目标分词的首字或者尾字;
根据该字是否为满足预设类别的目标分词的首字或者尾字的判断结果,以及每一个判断结果对应的特征值,生成所述目标文本对应的第一首指针集合和第一尾指针集合。
3.根据权利要求1所述的命名实体的提取方法,其特征在于,所述根据所述第一首指针集合中的所述第一特征值,以及所述第一尾指针集合中的所述第二特征值,从所述目标文本中提取命名实体,并确定所述命名实体对应的类别,包括:
针对所述第一首指针集合中的每个第一特征值,从所述第一尾指针集合中选取类别与该第一特征值的类别相一致,且与该第一特征值的位置关系满足第一预设条件的第二特征值;
将该第一特征值与选取出的第二特征值对应的分词确定为所述目标文本中的命名实体,并将该第一特征值的类别确定为所述命名实体的类别。
4.根据权利要求2所述的命名实体的提取方法,其特征在于,通过如下方式对所述编码模型以及所述标准矩阵进行训练:
构造第一训练数据,所述第一训练数据中包括多个第一样本文本,以及每个第一样本文本对应的第二首指针集合和第二尾指针集合;
将所述第一训练数据中的第一样本文本输入到编码模型中,获取所述编码模型输出的第一样本文本对应的第二文本矩阵;
基于标准矩阵,对所述第一样本文本对应的第二文本矩阵进行矩阵变换,得到所述第一样本文本对应的第三首指针集合和第三尾指针集合;
根据所述第一样本文本对应的第二首指针集合和第二尾指针集合,以及所述第一样本文本对应的第三首指针集合和第三尾指针集合,确定所述第一样本文本对应的损失值;
基于所述损失值对所述编码模型以及所述标准矩阵进行调整,直至任一所述第一样本文本对应的损失值均小于预设阈值,得到所述预先训练好的编码模型和所述预先训练好的标准矩阵。
5.根据权利要求4所述的命名实体的提取方法,其特征在于,通过如下方式构造所述第一训练数据:
构造第二训练数据,所述第二训练数据中包括多个第二样本文本;
将所述第二训练数据中的第二样本文本输入到编码模型中,获取所述编码模型输出的所述第二样本文本对应的第三文本矩阵;
基于所述标准矩阵,对所述第二样本文本对应的第三文本矩阵进行矩阵变换,得到所述第二样本文本中每个字归属于所述预设类别的第二概率;
基于所述第二样本文本中每个字归属于所述预设类别的第二概率,确定所述第二样本文本对应的第四首指针集合和第四尾指针集合;
若所述第二样本文本中每个字归属于所述预设类别的第二概率满足第二预设条件,则将所述第二样本文本确定为所述第一样本文本,将所述第二样本文本对应的第四首指针集合和第四尾指针集合,分别确定为所述第一样本文本对应的第二首指针集合和第二尾指针集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010949598.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种引线框式电子元器件封装方法
- 下一篇:桅杆调垂方法、系统及旋挖钻机





