[发明专利]一种基于深度学习话题信息增强的文本文档表示方法和装置有效

申请号：	201810999545.6	申请日：	2018-08-30
公开（公告）号：	CN109241377B	公开（公告）日：	2021-04-23
发明（设计）人：	张文跃;王素格;李德玉	申请（专利权）人：	山西大学
主分类号：	G06F16/93	分类号：	G06F16/93
代理公司：	北京中南长风知识产权代理事务所(普通合伙) 11674	代理人：	郑海
地址：	030006 山西省***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习话题信息增强文本文档表示方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习话题信息增强的文本文档表示方法，其特征在于，包括以下步骤：

S1，对含有K个话题的某篇语料中由n个词构成的文档D＝{w₁,w₂,...,w_n}进行清理、抽取、转化和整理的数据预处理操作，获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}；

S2，利用词语间的序列关系构建文本序列层，设计序列形式长短期记忆模型，获取文档的潜在语义矩阵Hs＝{h₁,h₂,...,h_n}，其中，h_i＝f₁(x_i,h_i-1)，h₀＝f₁(x₀)，f₁为神经网络节点操作；

S3，由所述潜在语义矩阵Hs＝{h₁,h₂,...,h_n}生成对应的注意力强度矩阵A＝{a₁,a₂,...,a_n}，并将A矩阵转置后按行归一化得到注意力权重矩阵A*，其中a_i＝f₂(h_i)，f₂是转化函数；

S4，将所述潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合，获取文档所有话题的映射矩阵表示VTs，VTs＝f₃(Hs,A*)，其中f₃是转化函数；

S5，使用跨文档的标签信息对所述话题的映射矩阵表示VTs的相似程度进行约束，获取话题信息增强后的映射矩阵表示VTk；

S5包括以下步骤：

S51，话题表示向量转化，话题表示向量VT和VTC的维度不一定等于K，因此首先要通过下面算法转变它们的长度：

其中，Ws和Bs是话题信息相似度约束机制中的权值矩阵参数和偏置矩阵参数，σ同样为sigmoid激活函数，对比向量vk的长度为K，且每个文档共有K个对比向量每个向量对应一个话题；

S52，相似度衡量，采用交叉熵作为对比向量和话题标签向量之间的相似度度量，计算方式如下：

当sk数值越小表示对比向量vk和话题标签向量Lk越相似，这时证明产生vk的话题信息向量VTk和VTCk同其他话题向量对比差异越大，其中，L是长度为K形式为“one-hot”的话题标签向量；训练语料话题标签共有K个，分别对应K个话题，且每个话题再对应一个独特的one-hot形式向量用于监督学习过程；将这些标签向量同其预处理后的文档数据相互对应起来作为实验数据；

S53，话题相似度得分计算，得到所有话题的相似度评分后，将它们求平均得到话题信息相似度综合评分S：

S数值越小，话题信息冗余也就越小，生成的文档表示向量中的话题信息就可能越全面；在训练阶段通过目标函数误差回传和参数更新来使S值最小化；

S6，对所述VTk进行融合，获取文档D的语义表示向量Rep，其中Rep＝f₄(VTk)，其中，f₄为融合函数；

S7，对所述Rep经过话题分类器进行分类，并根据分类精确度和话题相似度指标得到误差指数，并利用目标函数梯度下降方法更新步骤S1～S6中的模型参数。

2.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S1包括以下步骤：

S11，对所有文本数据进行抽取与清理，其中，如果是英文数据，则进行标记化和词干化；如果是中文数据，则进行中文分词处理；并去除文本数据中的停用词，删除词数小于六个词的文档；

S12，利用经大语料预训练后的Word2Vec词向量模型将语料中的所有词转化为词向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810999545.6/1.html，转载请声明来源钻瓜专利网。