[发明专利]对多篇文档进行相关性检验的方法和装置在审
| 申请号: | 201310217862.5 | 申请日: | 2013-06-03 |
| 公开(公告)号: | CN103324687A | 公开(公告)日: | 2013-09-25 |
| 发明(设计)人: | 黄平春 | 申请(专利权)人: | 北界创想(北京)软件有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100020 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 进行 相关性 检验 方法 装置 | ||
1.一种对多篇文档进行相关性检验的方法,其特征在于,包括:
确定所述多篇文档对应的n个主题词,其中n为自然数且n大于等于3;
计算所述n个主题词中每两个主题词的相似度值;以及
计算多个所述相似度值的方差,根据所述方差确定所述多篇文档的相关性。
2.根据权利要求1所述的方法,其特征在于,在计算所述n个主题词中每两个主题词的相似度值之前,所述方法还包括:
按预设顺序构造相似度矩阵,其中,所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度;
将所述相似度矩阵转换成向量。
3.根据权利要求2所述的方法,其特征在于,每个相似度仅在所述相似度矩阵中出现一次。
4.根据权利要求2所述的方法,其特征在于,将所述矩阵转换成向量包括:
将所述矩阵划分为从上到下依次排列的多个行向量;
将所述多个行向量首尾连接,合并为一个向量。
5.根据权利要求1所述的方法,其特征在于,计算所述n个主题词中每两个主题词的相似度值包括:
根据所述两个主题词的联合文档频和分别对应的单独文档频,计算所述两个主题词的所述相似度值,其中,所述联合文档频为同时包含所述两个主题词的文档个数,所述单独文档频为包含一个所述主题词的文档个数。
6.根据权利要求5所述的方法,其特征在于,在所述单独文档频固定的情况下,两个所述主题词的相似度与所述联合文档频成正比。
7.根据权利要求6所述的方法,其特征在于,在计算所述n个主题词中每两个主题词的所述相似度值之后,所述方法还包括:
利用平滑参数将所述相似度值转换为正规化相似度值。
8.根据权利要求1所述的方法,其特征在于,在确定所述多篇文档对应的n个主题词之后以及计算所述n个主题词中每两个主题词的相似度值之前,所述方法还包括:
将噪音文档过滤,其中,所述噪音文档为不包含任一所述n个主题词的文档。
9.一种对多篇文档进行相关性检验的装置,其特征在于,包括:
确定模块,用于确定所述多篇文档对应的n个主题词,其中n为自然数且n大于等于3;
第一计算模块,用于计算所述n个主题词中每两个主题词的相似度值;以及
第二计算模块,用于计算多个所述相似度值的方差,根据所述方差确定所述多篇文档的相关性。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
构造模块,用于按预设顺序构造相似度矩阵,其中,所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度;
第一转换模块,用于将所述相似度矩阵转换成向量。
11.根据权利要求10所述的装置,其特征在于,每个相似度仅在所述相似度矩阵中出现一次。
12.根据权利要求10所述的装置,其特征在于,所述第一转换模块包括:
划分子模块,用于将所述矩阵划分为从上到下依次排列的多个行向量;
合并子模块,用于将所述多个行向量首尾连接,合并为一个向量。
13.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
计算子模块,用于根据所述两个主题词的联合文档频和分别对应的单独文档频,计算所述两个主题词的所述相似度值,其中,所述联合文档频为同时包含所述两个主题词的文档个数,所述单独文档频为包含一个所述主题词的文档个数。
14.根据权利要求13所述的装置,其特征在于,在所述单独文档频固定的情况下,两个所述主题词的相似度与所述联合文档频成正比。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第二转换模块,用于利用平滑参数将所述相似度值转换为正规化相似度值。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
过滤模块,用于将噪音文档过滤,其中,所述噪音文档为不包含任一所述n个主题词的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北界创想(北京)软件有限公司,未经北界创想(北京)软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310217862.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集群装配压力的测量装置
- 下一篇:纳米复合树脂镜片色度检测系统及检测仪





