[发明专利]一种引入关联关系的文本表示学习方法在审

专利信息
申请号: 202010442824.X 申请日: 2020-05-22
公开(公告)号: CN111708881A 公开(公告)日: 2020-09-25
发明(设计)人: 杨青;张旭;王旭强;张剑;刘玄;秦莹 申请(专利权)人: 国网天津市电力公司;国家电网有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N20/10
代理公司: 天津创智天诚知识产权代理事务所(普通合伙) 12214 代理人: 谢萌;陈昌娟
地址: 300010*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 引入 关联 关系 文本 表示 学习方法
【说明书】:

发明公开了一种引入关联关系的文本表示学习方法,包括以下步骤:步骤1:根据数据集中文本之间的关联关系构建关联关系网络G,并在所述关联关系网络G上随机游走,得到游走序列S;步骤2:基于步骤1中输出的游走序列S,联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息,构建引入关联关系的文本表示学习模型,所述引入关联关系的文本表示学习模型包括两个SkipGram模型;步骤3:将步骤2中两个SkipGram模型学习到的文本表示进行拼接,得到最终的文本表示。本发明的引入关联关系的文本表示学习方法同时融合文本的内容信息和结构关联关系信息,使得文本分类的准确率得到提升。

技术领域

本发明涉及计算机应用技术领域,更具体地涉及一种引入关联关系的文本表示学习方法。

背景技术

随着信息技术的发展,包含文本信息的数据在日益增加,如何从海量复杂的文本数据中获取有用的信息是一个值得研究的问题。由此,文本表示学习受到了人们的广泛关注,其目标是通过某种方式将文本中的重要信息表示成低维稠密的向量,以便应用在各种下游任务中,例如文本情感分类、新闻文章主题分类、检索中用户查询意图分类等等。

文本表示学习相关模型大致可以分为三类:基于向量空间的模型、基于主题的模型、基于神经网络的模型。

向量空间模型是一种把文本内容转化为向量表示的代数模型,在信息检索、过滤、索引等领域都有广泛的应用。常用的基于向量空间的模型有TF-IDF和潜在语义分析(LSA)。TF-IDF方法中文本表示维度为对应词表的维度,在该方法中有两个重要的定义,即词频和逆文档频率。词频是指某个给定的单词在该文本中出现的频率,单词的逆文档频率是通过总文本文件的个数除以包含该词的文本文件数目,再对结果取对数计算得到的。向量中每个元素为对应词的词频和逆文档频率的乘积。LSA是通过构建文档与词项的共现矩阵来得到对应文本的向量表示。在该共现矩阵中,行代表文本,列代表单词项,矩阵中的每一个元素均是通过TF-IDF方法计算得到,然后通过奇异值分解(SVD)的方法进行降维,得到文本表示。该方法同样不能体现词的位置信息,忽略了语序,主要适用于长文本。TF-IDF和LSA方法只考虑了文本本身的语义信息,只关注了文本本身包含的单词信息,没有考虑文本之间的关联信息,学习到的文本表示是片面的。

主题模型尝试从概率生成模型的角度实现文本表示学习,文本表示的每一个维度代表一个“主题”,这个主题通常是一组词的聚类,因此该文本表示具有一定的解释性。隐含狄利克雷分布(LDA)是一种常用的主题模型方法,可以将文本中每篇文本的主题以概率分布的形式给出。它是一种典型的词袋模型,它认为一篇文章是一组词构成的集合,一篇文章可以包含多个主题,而文章中的每个词都由一个主题生成,和LSA一样不能考虑词与词之间的顺序关系。同样,LDA方法也没有考虑文本之间的关联关系。

人工神经网络(Artificial Neural Network)是近些年人工智能领域的研究热点。经典神经网络模型如卷积神经网络CNN、循环神经网络RNN等,在目前的计算机视觉领域有着广泛的应用,RNN的变体LSTM等则是广泛地应用于自然语言处理任务中。其中较为典型的是Mikolov等人提出的CBOW和SkipGram,简称Word2Vec模型,这两种模型在神经网络的基础上对词向量进行学习,训练效率较高,并且能得到高质量的词向量表示。Le等人拓展了Word2Vec模型,提出了Doc2Vec模型,可以学习文本的表示。虽然Doc2Vec模型学习到的文本表示质量较高,但是Doc2Vec只考虑了文本的内容信息,对于文本间的关联信息没有进行建模,学习到的信息不够全面。

现如今的文本数据中通常不仅包含其本身的内容信息,还具有文本间的关联关系,比如论文引用关系、微博转发关系等,这种文本间的关联关系对学习文本的表示也是至关重要的,例如,在论文主题分类任务中,论文与论文之间存在引用和被引用的关系,而存在这种关联关系的论文的主题通常是相似的,所以这种关联关系可以帮助模型学习到更全面的文本表示。而现有的模型只对文本的内容信息进行建模,忽略了文本间的关联关系,因此学习到的表示是不全面的。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010442824.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top