[发明专利]一种基于惩罚性矩阵分解的文献表示方法有效

申请号：	202010067126.6	申请日：	2020-01-20
公开（公告）号：	CN111274537B	公开（公告）日：	2021-12-31
发明（设计）人：	牛奉高;冯世佳;黄琛	申请（专利权）人：	山西大学
主分类号：	G06F17/16	分类号：	G06F17/16;G06F40/284;G06F16/35
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	程园园
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于惩罚性矩阵分解文献表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于文本挖掘技术领域，具体涉及一种基于惩罚性矩阵分解的文献表示方法。本发明通过采集数据，构建文献表示的向量空间模型，计算共现矩阵，计算特征词之间的共现相对强度矩阵，引入指标集，对二元篇词矩阵Q进行奇异值分解和惩罚性矩阵分解，求得初始二元篇词矩阵的K‑秩近似矩阵。本发明基于惩罚性矩阵分解的文档表示方法应用于文献文本挖掘领域，将有效提高文本聚类和信息检索的准确度，降低检索成本。

技术领域

本发明属于文本挖掘技术领域，具体涉及一种基于惩罚性矩阵分解的文献表示方法。

背景技术

在大数据时代下，信息呈爆炸式增长，通过人工方式快速地在资料中查找有效信息难上加难。从文本形式的数据中寻找有用信息的过程就是文本挖掘。“文本挖掘”亦称“文本数据挖掘”或“文本知识发现”，是一种跨领域的应用，文本挖掘特别着重于利用这些技术发掘出先前未知的、隐含而有用的信息。文本挖掘是数据挖掘的一个主要方向，是指为了发现知识，从大规模文本数据中抽取隐含、潜在的有用模式的过程。文本聚类是文本挖掘的重要部分，它将数据划分成不同的簇，使得每个簇内的相似度较大，不同簇间的相似度较小。文本表示是聚类过程的研究基础，将无结构或半结构的文本信息表示为可被计算机处理的数据形式，这是一个非常重要的问题。但是传统的文本表示模型的高维和稀疏特性制约了文本聚类的效果。

惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)由Witten等首次提出，该方法对降低矩阵稀疏度非常有效。因此，在传统的共现潜在语义向量空间模型(CLSVSM)基础上施加惩罚，对向量进行稀疏约束，实现该模型的改进，进而提出基于惩罚性矩阵分解的文献表示方法。

发明内容

针对上述问题本发明提供了一种基于惩罚性矩阵分解的文献表示方法。

为了达到上述目的，本发明采用了下列技术方案：

一种基于惩罚性矩阵分解的文献表示方法，包括以下步骤：

步骤1，采集数据：提取文献的关键词并进行词频统计，按词频降序排列；

步骤2，以关键词在文献中是否出现为权重，构建文献表示的向量空间模型；

步骤3，根据共现理论计算共现矩阵，获得特征词的出现频次以及特征词之间两两共现频次；

步骤4，计算特征词之间的共现相对强度矩阵；

步骤5，引入指标集I_i1＝{j|a_ij＝1}，据此构建用于后续实验的二元篇词矩阵Q；

步骤6，对二元篇词矩阵Q进行奇异值分解；

步骤7，惩罚性矩阵分解，基于充分提取特征词共现信息的思想，利用L₁范数对奇异矩阵的向量进行约束，求得全部d_k和稀疏后的u_k和v_k向量；