[发明专利]基于点互信息的文本语义相似性度量方法有效

专利信息
申请号: 201910081764.0 申请日: 2019-01-28
公开(公告)号: CN109840325B 公开(公告)日: 2020-09-29
发明(设计)人: 牛奉高;赵霞 申请(专利权)人: 山西大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/194;G06F16/33;G06F16/35
代理公司: 太原申立德知识产权代理事务所(特殊普通合伙) 14115 代理人: 程园园
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 互信 文本 语义 相似性 度量 方法
【说明书】:

发明属文本主题聚类技术领域,具体涉及一种基于点互信息的文本语义相似性度量方法,本发明基于共现潜在语义向量空间模型,利用点互信息对关键词间的潜在语义相似关系进一步提取,使原本没有共现关系的两个关键词,通过构建关键词共现向量,进一步提取挖掘了关键词间的潜在语义相似关系,使语义提取更加充分,建立基于点互信息的文本语义相似性度量方法,该方法的应用将有效提高文本聚类、信息检索的精度,降低检索成本。

技术领域

本发明属文本主题聚类技术领域,本发明是利用点互信息对关键词间的潜在语义相似关系进一步提取,建立了基于点互信息的文本语义相似性度量方法,该方法的应用将有效提高文本聚类、信息检索的精度,降低检索成本。

背景技术

随着计算机网络技术的快速发展和普及,大量以书面形式存在的文本信息被转换成电子文本的形式储存及传递。当信息产生和传递的效率加速提升时,就产生了信息爆炸,人类社会进入大数据时代。在大数据信息爆炸的时代,文献资源得到了极大的丰富,资源检索精度下降,检索成本增加,而人们迫切希望从海量的信息中获取与自身需要和兴趣吻合度高的内容。为了满足此需求,出现了多种应用,如搜索引擎、自动问答系统、文档分类与聚类、文献精准推送等,而这些应用场景的关键技术就是语义相似度计算。在文本分类和聚类领域,语义相似度的计算起着重要的作用,只有充分、准确的提取挖掘文本中词与词之间的语义信息,才能使词之间相似度的度量达到精准,进而更好的对文本进行分类、聚类,以达到理想的效果。

向量空间模型(VSM)于1997年由Salton G提出,该模型的提出使文本分类、聚类领域有了新的突破。作为文本表示向量的经典模型,它将文献映射成文本空间中的一个高维稀疏的向量,通过度量向量之间的相似性来衡量文献间的相似性。但是该模型忽略了关键词间的语义关系,认为关键词间不存在语义上的联系,造成文本聚类精度的不高。之后,牛奉高等提出共现潜在语义向量空间模型(CLSVSM),该模型通过提取特征词之间的潜在共现信息来实现对布尔模型的补充,最终得出CLSVSM相比于VSM有更好的聚类效果。进一步说明文本聚类中提取语义的必要性。

发明内容

本发明针对文本聚类、信息检索精度不高和检索成本高的技术问题,提供了一种基于点互信息的文本语义相似度处理方法,

为解决上述技术问题,本发明采用的技术方案为:基于点互信息的文本语义相似度处理方法,包括以下步骤:

步骤1:根据收集到的文献数据,提取文献所含关键词;

步骤2:统计关键词词频,并以关键词词频为主要关键字进行降序排列;

步骤3:由词频统计表生成文献-关键词矩阵A=(aij)n×m,即篇词矩阵,用来表现文献和关键词之间的关系;矩阵的行向量表示文献,共有n篇,列向量表示关键词,共有m个,矩阵中元素aij的取值表示关键词j是否在第i篇文献中出现,出现值为1,否则为0,即篇词矩阵中的元素非0即1,为布尔权重;

步骤4:由篇词矩阵生成关键词-关键词矩阵D=ATA,即共现矩阵,用来表现两两关键词共同出现的情况;其中,当i≠j时,dij为第i个关键词与第j个关键词的共现频次,当i=j时,dii为第i个关键词的总频次;

步骤5:由点互信息的定义式和共现矩阵中关键词间的共现频次数据来度量任意两个关键词间的点互信息PMI;设有关键词x和y,则两关键词间的点互息PMI(x,y)为:

式中P(x,y)表示关键词x和y共同出现的概率,p(x),p(y)分别表示关键词x和y单独出现的概率,n表示两关键词共同出现的频次,N表示所收集文献中关键词的总个数,X和Y分别表示关键词x和y单独出现的频次;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910081764.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top