[发明专利]对多篇文档进行相关性检验的方法和装置在审
申请号: | 201310217862.5 | 申请日: | 2013-06-03 |
公开(公告)号: | CN103324687A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 黄平春 | 申请(专利权)人: | 北界创想(北京)软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 进行 相关性 检验 方法 装置 | ||
技术领域
本发明涉及互联网领域,特别涉及一种对多篇文档进行相关性检验的方法和装置。
背景技术
在互连网信息急剧增加的环境下,如何有效准确的得到所需的信息成为亟待解决的技术问题。其中,如何对相同类型的网络文档进行准确分类或聚类尤为关键。
现有技术中对文档进行分类或聚类后,无法准确的对分类或聚类得到的某一类文档的相关性进行检验,因此,该类别中可能出现与其它文档相关性不高的文档,用户对该类文档进行针对性阅读时,会被这些相关性不高的文档所干扰,降低了阅读效率和用户体验。
发明内容
本发明实施例提供一种对多篇文档进行相关性检验的方法和装置,通过确定多个主题词的相关性大小,确定多篇文档的相关性是否满足要求。
对多篇文档进行相关性检验的方法包括以下步骤:确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3;计算n个主题词中每两个主题词的相似度值;以及计算多个相似度值的方差,根据方差确定多篇文档的相关性。
在一个实施例中,在计算n个主题词中每两个主题词的相似度值之前,上述方法还包括:按预设顺序构造相似度矩阵,其中,相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度;将相似度矩阵转换成向量。
在一个实施例中,每个相似度仅在相似度矩阵中出现一次。
在一个实施例中,将矩阵转换成向量包括:将矩阵划分为从上到下依次排列的多个行向量;将多个行向量首尾连接,合并为一个向量。
在一个实施例中,计算n个主题词中每两个主题词的相似度值包括:根据两个主题词的联合文档频和分别对应的单独文档频,计算两个主题词的相似度值,其中,联合文档频为同时包含两个主题词的文档个数,单独文档频为包含一个主题词的文档个数。
在一个实施例中,在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
在一个实施例中,在计算n个主题词中每两个主题词的相似度值之后,上述方法还包括:利用平滑参数将相似度值转换为正规化相似度值。
在一个实施例中,在确定多篇文档对应的n个主题词之后以及计算n个主题词中每两个主题词的相似度值之前,上述方法还包括:将噪音文档过滤,其中,噪音文档为不包含任一主题词的文档。
对多篇文档进行相关性检验的装置包括以下组成部分:确定模块,用于确定多篇文档对应的n个主题词,其中n为自然数且n大于等于3;第一计算模块,用于计算n个主题词中每两个主题词的相似度值;以及第二计算模块,用于计算多个相似度值的方差,根据方差确定多篇文档的相关性。
在一个实施例中,上述装置还包括:构造模块,用于按预设顺序构造相似度矩阵,其中,相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度;第一转换模块,用于将相似度矩阵转换成向量。
在一个实施例中,每个相似度仅在相似度矩阵中出现一次。
在一个实施例中,第一转换模块包括:划分子模块,用于将矩阵划分为从上到下依次排列的多个行向量;合并子模块,用于将多个行向量首尾连接,合并为一个向量。
在一个实施例中,第一计算模块包括:计算子模块,用于根据两个主题词的联合文档频和分别对应的单独文档频,计算两个主题词的相似度值,其中,联合文档频为同时包含两个主题词的文档个数,单独文档频为包含一个主题词的文档个数。
在一个实施例中,在单独文档频固定的情况下,两个主题词的相似度与联合文档频成正比。
在一个实施例中,上述装置还包括:第二转换模块,用于利用平滑参数将相似度值转换为正规化相似度值。
在一个实施例中,上述装置还包括:过滤模块,用于将噪音文档过滤,其中,噪音文档为不包含任一主题词的文档。
在本发明中,通过计算多个相似度值的方差,可以确定多个主题词的相关性大小,从而可以确定多篇文档的相关性是否满足要求。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的对多篇文档进行相关性检验的方法的流程图;
图2是根据本发明优选实施例的多篇文档进行相关性检验的方法的流程图;
图3是根据本发明优选实施例的主题词提取示意图;
图4是根据本发明实施例的对多篇文档进行相关性检验的装置400的结构框图;
图5是根据本发明第一优选实施例的对多篇文档进行相关性检验的装置500的结构框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北界创想(北京)软件有限公司,未经北界创想(北京)软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310217862.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集群装配压力的测量装置
- 下一篇:纳米复合树脂镜片色度检测系统及检测仪