[发明专利]基于图卷积网络和注意力机制的文本关联方法及相关设备在审
申请号: | 202110540413.9 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113535912A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 薛哲;杜军平;宋杰;寇菲菲;梁美玉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/194;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 孙晓凤 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 注意力 机制 文本 关联 方法 相关 设备 | ||
本公开提供一种基于图卷积网络和注意力机制的文本关联方法及相关设备,该方法包括:获取用户问题和文档;通过分词算法分别提取所述用户问题和所述文档的关键词及权重;利用词向量模型得到所述用户问题的词向量序列和所述文档的词向量序列;基于文档的词向量序列构建交互图;将用户问题的词向量和文档的词向量进行交互后构建视图;将所有所述视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,其中,所述图卷积神经网络模型是经过预训练的。本公开采用图结构来表示文档,图结构可以在一定程度上保持文档中关键词之间的交互关系,既解决了词向量模型文本长度表征有限的问题,同时提高了科研论文检索的准确性。
技术领域
本公开涉及深度学习技术领域,尤其涉及一种基于图卷积网络和注意力机制的文本关联方法及相关设备。
背景技术
文本匹配是自然语言处理中的核心问题,许多自然语言处理任务可以抽象为文本匹配问题。例如,科学论文的搜索可以归结为搜索语句和科学论文文档的匹配。为不同的任务场景设计不同的匹配模型对于提高匹配精度至关重要。
传统的相关性匹配主要基于搜索词的文字匹配度来计算相关性,但是文字匹配有其局限性,即无法处理同义词和多义词。深度学习也广泛应用于相关性匹配。大多数相关性匹配方法都使用深层模型来表示科学论文(以下称为Query)和科学论文文档(以下称为Doc)的搜索语句,并进行计算向量相似度作为相关性匹配分数。优点是快速,而缺点是Query和Doc之间没有交互,并且无法充分利用Query和Doc的细粒度匹配信号。另外,当获取文本向量时,大多数方法都具有最大支持的字长。如果超过长度,则文本向量表示的有效性将受到影响。
发明内容
有鉴于此,本公开的目的在于提出一种基于图卷积网络和注意力机制的文本关联方法及相关设备。
基于上述目的,本公开提供了一种基于图卷积网络和注意力机制的文本关联方法,包括:
获取用户问题和文档;
通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
从所述第二词向量序列中选取部分所述权重较大的关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图;
将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
进一步的,所述第一交互图为无向图,所述第三词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
进一步的,所述对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图,包括:
对于所述第一词向量序列中的每个词向量,分别计算该词向量与所述第三词向量序列中的各个词向量的第一相似度矩阵;
基于所述第一相似度矩阵计算第一相似度加权词向量;
基于所述第一加权词向量构建所述第一视图。
进一步的,所述将所有所述第一视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,包括:
利用所述图卷积神经网络模型中的卷积层计算得到所有所述第一视图的特征矩阵集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110540413.9/2.html,转载请声明来源钻瓜专利网。