[发明专利]一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质在审
| 申请号: | 202210224702.2 | 申请日: | 2022-03-07 | 
| 公开(公告)号: | CN114625885A | 公开(公告)日: | 2022-06-14 | 
| 发明(设计)人: | 胡志臣;许小龙;胡祥奔;程勇 | 申请(专利权)人: | 南京信息工程大学 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/295;G06F40/216;G06N3/04;G06N3/08 | 
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 | 
| 地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 nlp 触发器 实体 从属 关系 抽取 识别 方法 系统 装置 存储 介质 | ||
1.一种基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,包括:
根据训练文本的上下文语段,获取训练文本中自定义多类实体及实体列表;
根据实体列表,通过聚类处理得到实体从属关系;
批量输入不同的训练文本到预构建的触发器中进行去重处理,得到校正的实体和实体列表;
对得到的校正实体分别进行多路匹配,记录实体之间的关系标签属性,生成样本数据集;
根据样本数据集,将待识别文本作为输入,依次经过双向长短期记忆神经网络模型和注意机制进行关系抽取,输出待识别文本的实体从属关系。
2.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述根据训练文本的上下文语段,获取文本中自定义多类实体及实体列表;具体包括:
分析训练文本内容上下文语段,获取训练文本语句中自定义多类实体的实体列表:
ER={er1,er2,...,erN}
式中,er1表示第一个种类的实体列表,er2表示第二个种类的实体列表,erN表示第N个种类的实体列表;
ER中第n个种类的实体列表的元组表示为
ern=(timn,geon,natn,orgn,pern),1≤n≤N,
式中,timn代表实体存在时间,geon代表所发现实体的地理位置,natn代表ern中对应的实体名称,orgn代表发现实体的组织,pern代表该实体的发现者;
对实体列表数据集进行关系定义:
Relationship={ER1,R1,ER2,ER3,R2,ER4,...,ERn,ERn,ERn+1},n1,
式中,ERn代表实体列表数据集中第n个实体,ERn+1代表实体数据集中第n+1个实体,Rn代表关联ERn和ERn+1的第n个关系,R中第n个关系的实体列表的元组表示为rn=(nat-timn,nat-includen,nat-propertyn,nat-unknown),其中1≤n≤N,其中nat-timn代表实体与实体之间存在时间关系,nat-includn代表实体与实体之间存在从属关系,nat-propertyn代表实体与实体之间存在属性值关系,nat-unknown代表实体与实体之间没有任何关系。
3.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法,其特征在于,所述根据实体列表,通过聚类处理得到实体从属关系;具体包括:
通过实体列表来推断其父类节点,并且推断出所有父类组合路线,同时计算出多种父类组合中最佳的路径,最终确定该父类实体;利用实体列表中所含词语出现的频率进行加权处理,当输入实体组合中全部在实体列表中出现时则最大比值为1,其最终词频F表达式为:
F=tf(d,w)*idf(w)
tf(d,w)=w/d
idf(w)=log(N/N(w))
式中,tf(d,w)是每一个实体列表子列d中词语w的词频;idf(w)是逆子列频次;w为在子列中d中出现的次数,d为子列的总词语数;N是实体列表所有的总列表数,N(w)是包含词语w的列表数总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210224702.2/1.html,转载请声明来源钻瓜专利网。





