[发明专利]基于对比学习预训练的异质信息网络关键词生成方法在审
| 申请号: | 202310587606.9 | 申请日: | 2023-05-23 | 
| 公开(公告)号: | CN116662565A | 公开(公告)日: | 2023-08-29 | 
| 发明(设计)人: | 曾维新;赵翔;吴丹;王宇恒;方阳;谭真;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F18/2415;G06N3/0442;G06N3/045;G06N3/0455;G06N3/0895 | 
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 | 
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 对比 学习 训练 信息网络 关键词 生成 方法 | ||
本发明公开了基于对比学习预训练的异质信息网络关键词生成方法,包括以下步骤:采用文本编码器将文本编码成低维向量,生成文本表示;采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;通过对比学习,将文本表示和图表示进行预训练对齐;引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;利用获得的单一表示,进行异质信息网络的关键字生成。本发明方法能够在异质信息网络的关键字生成任务中获得更优异显著的生成性能。
技术领域
本发明涉及自然语言处理中的知识图谱网络技术领域,尤其涉及基于对比学习预训练的异质信息网络关键词生成方法。
背景技术
异质信息网络无处不在。社交网络、知识图谱以及搜索和推荐系统中用户和项目之间的交互可以被建模为具有多种类型的节点和边的网络。文本异质信息网络是具有文本信息的网络,例如学术网络中论文节点的标题和摘要,可以为下游任务提供富有成效的辅助信息。目前关于异质信息网络的大多数工作都忽略了此类文本信息,并将图的节点映射到仅基于结构信息的低维表示。为了填补这一空白,一些挖掘异质信息网络的模型建议将文本信息集成到节点表示中。他们主要设计一个框架,将节点的结构信息与文本信息结合起来,以生成单个节点表示。
上面提到的文本网络嵌入模型面临着许多局限性。首先,它们只能用训练好的标签对节点进行分类,换句话说,它们不适用于小样本学习设置。在小样本学习中,我们需要在测试阶段迁移预训练的模型来分类带有不可见标签的节点。在实际应用中,通常只有少数几个标签可用,这对维持性能提出了严重的挑战。其次,之前的使用文本信息的方法最初都是为同质信息网络设计的,还没有工作尝试解决文本异质信息网络上的小样本学习问题。
为了解决小样本学习问题,自然语言处理相关的研究(例,ChatGPT)提出了提示学习,它重新制定了下游任务,使其看起来像预训练任务。无论是否有微调,提示学习都有助于将先验知识快速应用于新的任务中,从而加强小样本学习。最近,在多模态场景中也采用了提示学习,对图像和文本数据进行对齐。然而,目前还没有基于提示学习的技术被用于处理图谱和文本数据。
鉴于此,提出基于对比学习预训练的异质信息网络关键词生成方法,将提示学习用于图谱数据,解决文本异质信息网络上的小样本学习问题,获得更高效准确的异质信息网络关键词生成任务结果。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于对比学习预训练的异质信息网络关键词生成方法。所述方法采用一个文本编码器来编码文本信息;采用一个图谱编码器,对结构和异质特征以及自监督信息进行编码;采用一种对比学习机制,用于对齐文本表示和网络表示,以及一个可学习的连续向量式的提示学习框架,用于解决文本异质信息网络上的小样本问题。
基于对比学习预训练的异质信息网络关键词生成方法,所述方法包括:
步骤1,采用文本编码器将文本编码成低维向量,生成文本表示;
步骤2,采用图谱编码器对异质信息网络的结构特征、异质特征和自监督信息进行编码,获得图表示;
步骤3,通过对比学习,将文本表示和图表示进行预训练对齐;
步骤4,引入自动生成的可学习且连续的提示向量,将标识的自然语言语句提供给文本编码器,并将自然语言语句与图谱编码器生成的结构和异质特征表示进行比较来生成分类时的权重,融合得到单一表示;
步骤5,利用获得的单一表示,进行异质信息网络的关键字生成任务。
具体地,所述的文本编码器采用Sentence-BERT模型,生成固定大小的文本表示。
具体地,步骤2中具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310587606.9/2.html,转载请声明来源钻瓜专利网。





