[发明专利]一种基于惩罚性矩阵分解的文献表示方法有效
| 申请号: | 202010067126.6 | 申请日: | 2020-01-20 |
| 公开(公告)号: | CN111274537B | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 牛奉高;冯世佳;黄琛 | 申请(专利权)人: | 山西大学 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F40/284;G06F16/35 |
| 代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 程园园 |
| 地址: | 030006*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 惩罚性 矩阵 分解 文献 表示 方法 | ||
1.一种基于惩罚性矩阵分解的文献表示方法,其特征在于:包括以下步骤:
步骤1,采集数据:提取文献的关键词并进行词频统计,按词频降序排列;
步骤2,以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;
步骤3,根据共现理论计算共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
步骤4,计算特征词之间的共现相对强度矩阵;
步骤5,引入指标集Ii1={j|aij=1},即所有aij=1的特征词j的集合,据此构建用于后续实验的二元篇词矩阵Q;所述aij为第j个关键词在第i篇文献中的权重;
步骤6,对二元篇词矩阵Q进行奇异值分解;
Q=UDVT
其中,U和V都是正交矩阵,D是奇异值矩阵,T表示矩阵的转置;
步骤7,惩罚性矩阵分解PMD,基于充分提取特征词共现信息的思想,利用L1范数对奇异矩阵的向量进行约束,将这种方法简记为PMD(L1,L1),求得全部dk和稀疏后的uk和vk向量;所述uk是U的第k列;vk是V的第k列;dk是D的第k个奇异值;
步骤8,求得初始二元篇词矩阵的K-秩近似矩阵;
所述PMD(L1,L1)方法的准则和算法如下:
其中,maximize表示取uTQv的最大值;Qv表示二元篇词矩阵Q与向量v的乘积;u表示U的一列向量;v表示V的一列向量;|| ||F是Frobenius范数;c1和c2表示阈值;
一阶的PMD(L1,L1)算法如下:
(1)利用L2初始化v;
(2)迭代至收敛:
(a)Δ1=0时||u||1≤c1;否则,选择一个正常数Δ1,使||u||1=c1;
(b)Δ2=0时||v||1≤c2;否则,选择一个正常数Δ2,使||v||1=c2;
(3)d←uTQv;
其中,Δ1和Δ2表示一个使上述表达式成立的常数值;S表示一个软阈值算子,S(a,c)=sgn(a)(|a|-c)+,其中c>0,为常数;如果x>0,那么x+=x;如果x≤0,则x+=0;
多阶PMD准则是通过不断地最小化一阶PMD准则函数来实现,每次都要从矩阵Q减去计算得出的最大值,即:
利用多阶PMD准则求得全部dk和稀疏后的uk和vk向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010067126.6/1.html,转载请声明来源钻瓜专利网。





