[发明专利]实体关系抽取模型的构建方法、装置和存储介质有效
| 申请号: | 201910525397.9 | 申请日: | 2019-06-18 |
| 公开(公告)号: | CN110263019B | 公开(公告)日: | 2021-08-31 |
| 发明(设计)人: | 刘晶;李蔚栋;覃俊;李子茂;王江晴;吴经龙;孟凯 | 申请(专利权)人: | 中南民族大学 |
| 主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
| 地址: | 430074 湖北省武汉*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 关系 抽取 模型 构建 方法 装置 存储 介质 | ||
1.一种实体关系抽取模型的构建方法,其特征在于,所述实体关系抽取模型的构建方法包括以下步骤:
从样本语料库中提取多个样本语句组,各样本语句组分别包括实体语句、关系语句、所述实体语句的前句、以及所述实体语句的后句,所述实体语句为包含样本三元组中的样本实体对的语句,所述关系语句为用于描述所述样本实体对的实体关系的语句;
对各样本语句组分别进行编码,获得多个样本语句向量组;
结合各样本语句向量组中的各语句向量为各样本语句向量组中的不同实体语句向量分别分配权值;
其中,结合各样本语句向量组中的各语句向量采用以下公式为各样本语句向量组中的不同实体语句向量分别分配权值:
hi=tanh(Xi′A1R+XiA2R+Xi″A3R)
其中,hi为实体语句向量的权值,Xi为实体语句向量,Xi'为实体语句向量的前句向量,Xi”为实体语句向量的后句向量,R为关系向量,A1、A2、A3均为待训练参数;
根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量;
通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型;
其中,所述根据各样本语句向量组中的实体语句向量以及对应的权值生成实体语句集向量的步骤包括:
根据各样本语句向量组中各样本语句向量的权值计算各样本语句向量的权值比例;
根据各样本语句向量以及对应的权值比例生成实体语句集向量。
2.如权利要求1所述的实体关系抽取模型的构建方法,其特征在于,所述对各样本语句组分别进行编码,获得多个样本语句向量组的步骤包括:
遍历各样本语句组,提取遍历到的当前样本语句组中各语句的特征;
利用长短期记忆网络对所述特征进行编码,获得所述当前样本语句组中各语句对应的语句向量,并根据获得的语句向量生成所述当前样本语句组对应的样本语句向量组。
3.如权利要求2所述的实体关系抽取模型的构建方法,其特征在于,所述特征包括当前样本语句组中的语句中各单词与实体单词之间的最小距离的排序组合、当前样本语句组中的语句中各单词的排序组合、以及当前样本语句组中的语句中各单词的命名实体的排序组合中的至少一个;所述距离为单词与实体单词之间的非实体单词的个数。
4.如权利要求1-3任一项所述的实体关系抽取模型的构建方法,其特征在于,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:
利用所述实体关系抽取模型对所述样本语料库进行实体关系抽取,得到预测实体关系;
根据与所述样本语料库的样本三元组对所述预测实体关系进行误差分析,在误差分析的结果未达到预设的误差标准时,重新选取样本三元组以返回所述从样本语料库中提取多个样本语句组的步骤,直至所述误差分析的结果达到预设的误差标准。
5.如权利要求1-3任一项所述的实体关系抽取模型的构建方法,其特征在于,所述通过所述实体语句集向量对预设神经网络模型进行训练,获得实体关系抽取模型的步骤之后,所述实体关系抽取模型的构建方法还包括:
利用所述实体关系抽取模型对待测语料进行实体关系抽取,获得所述待测语料中的实体关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910525397.9/1.html,转载请声明来源钻瓜专利网。





