[发明专利]一种基于神经网络的图书概念前后序关系抽取方法有效

专利信息
申请号: 202110061782.X 申请日: 2021-01-18
公开(公告)号: CN112860882B 公开(公告)日: 2022-05-10
发明(设计)人: 鲁伟明;贾程皓;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/205;G06F40/30;G06N3/04;G06N3/08
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 图书 概念 前后 关系 抽取 方法
【权利要求书】:

1.一种基于神经网络的图书概念前后序关系抽取方法,其特征在于,包括以下步骤:

1)图结构的构建:基于图书文本,构建含有概念节点和章节节点的图结构;将图书文本中的概念和章节作为图结构的顶点,分别计算概念对之间的PMI值,概念在章节中的TF-IDF值,以及章节对在图书中的距离,作为图结构中对应顶点之间的边的权重,得到图结构;PMI的定义如下:

其中,#W(i,j)表示同时包含节点i和节点j的概念词的滑动窗口的数量,#W(i)表示包含节点i的概念词的滑动窗口的数量,#W表示图书文本中滑动窗口的数量;若节点i为概念节点,节点j为章节节点,则边的权重为该概念在章节文本中的TF-IDF值;若节点i和节点j为章节节点,则边的权重定义为:

其中,di表示章节节点i所代表的章节以图书目录为序的序号;M表示图书的章节数量;

2)概念对特征的提取:利用图书文本,提取概念对之间的语义和结构特征,并表达成一个特征向量,用于之后神经网络模型的训练;

3)构建神经网络模型:将步骤1)得到的图结构和步骤2)提取的特征向量作为神经网络模型的输入;首先进行图卷积操作,得到章节节点和概念节点的隐层向量;将每一对概念节点的隐层向量输入到孪生网络,再使用Sigmoid函数得到每一对概念节点之间具有前后序关系的预测概率,再计算预测概率与概念对的前后序关系的真实标签的交叉熵,作为第一部分损失函数;将每一对章节节点的隐层向量输入孪生网络,再使用Sigmoid函数得到每一对章节节点之间具有前后序关系的预测概率,再计算预测概率与章节对的前后序关系的真实标签的交叉熵,作为第二部分损失函数;将步骤2)中提取到的概念对之间的特征向量经过一个全连接层,再使用Sigmoid函数得到每对概念之间具有前后序关系的预测概率,再计算预测概率与概念对的前后序关系的真实标签的交叉熵,作为第三部分损失函数;将三部分损失函数加权求和作为神经网络模型的损失函数;具体过程如下:

3.1)将步骤1)得到的图结构输入到神经网络模型中,使用关系型图卷积网络进行卷积操作,对每一个节点整合其邻居节点的信息,从而提取图结构的空间特征;关系型图卷积操作表示如下:

其中,表示对于关系类型r,节点i的邻居节点集合;表示第l层卷积操作时,与关系类型r相关的权重矩阵参数,表示第l层的卷积操作时,与关系类型r无关权重矩阵参数,表示节点i在l层的隐层向量,Aij表示节点i与节点j之间的边的权重;σ表示激活函数;

在经过若干层卷积操作之后,可以得到整合了邻居节点信息的概念节点和章节节点的隐层向量;

3.2)在得到概念节点和章节节点的隐层向量表达以后,使用一个孪生网络来对概念之间是否具有前后序关系进行预测;具体地,首先将每一对概念经过孪生网络,该过程表示如下:

pGCN=sigmoid(fGCN)

其中,表示概念词ci整合了邻居节点信息的隐层向量;Ws,bs表示孪生网络中第一层的权重和偏置,W和b表示孪生网络中第二层的权重和偏置,均为需要训练的参数;表示向量的哈达玛积;表示向量vi、vj、vi-vj、的拼接,计算结果pGCN表示基于图结构的概念词ci是概念词cj的前后序概念的概率值;定义第一部分损失函数如下:

其中,yij是概念词ci与概念词cj之间的关系的真实标签;即若概念词i是概念词j的前序概念,则值为1,否则值为0,T表示概念词ci、概念词cj和真实标签yij的集合;

3.3)通过步骤2)得到概念词对之间的特征向量之后,将每一对概念词对应的特征向量经过一个全连接神经网络和Sigmoid函数,得到基于文本特征的概念词前后序关系的预测值;该过程表示如下:

fF=ReLU(WF·vij+bF)

pF=sigmoid(fF)

其中,vij表示,概念词i和概念词j的词间特征向量,WF和bF是神经网络需要训练的全连接神经网络的权重和偏置参数,pF表示基于文本特征的概念词ci是概念词cj的前后序概念的概率值;定义第二部分损失函数如下:

3.4)如果两个章节之间存在前后序关系,那么在两个章节所包含的概念词之间,也很有可能存在前后序关系;因此,在得到概念节点和章节节点的隐层向量表达以后,使用孪生网络来对章节之间是否具有前序关系也进行预测;具体地,将每一对章节节点的隐层向量经过孪生网络,该过程表示如下:

po=sigmoid(fo)

其中,表示第i个章节oi经过关系型图卷积操作之后得到的隐层向量;计算结果po表示通过基于图结构的章节oi是章节oj的前序章节的概率值;定义第三部分损失函数如下:

其中,y′ij是章节oi与章节oj之间的关系的真实标签;即若章节oi是章节oj的前序章节,则值为1,否则值为0;T′表示章节oi、章节oj和真实标签y′ij的集合;

3.5)定义神经网络的损失函数如下:

L=LGCN+λLF+μLo

其中,λ和μ为根据实际需求选择的权重参数;

4)抽取概念前后序关系:步骤3)构建的神经网络模型经过训练之后得到概念前后序关系的抽取器;将一本图书的文本进行分词、去停用词预处理之后,再构建图书文本对应的图结构,并提取图书文本的概念对之间的特征向量,然后作为输入传入抽取器,抽取器将输出图书文本的概念对之间是否具有前后序关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110061782.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top