[发明专利]一种聚合相同主题网络文档的方法及系统有效
| 申请号: | 200810088055.7 | 申请日: | 2008-03-27 |
| 公开(公告)号: | CN101246501A | 公开(公告)日: | 2008-08-20 |
| 发明(设计)人: | 唐年鹏;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 聚合 相同 主题 网络 文档 方法 系统 | ||
1.一种聚合相同主题网络文档的方法,其特征在于,包括:
获取当前网络文档中各词语的权重值;
将上述各词语按权重值降序排列;
从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词,利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;
聚合上述当前网络文档和相同主题网络文档。
2.如权利要求1所述的方法,其特征在于,聚合上述当前网络文档和相同主题网络文档之前,还包括:
使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;
依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;
去除相关度值低于预设数值的相同主题网络文档。
3.如权利要求2所述的方法,其特征在于,依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值具体为;
按出现频次升序排列当前网络文档和相同主题网络文档中的各词语;
将相同主题网络文档中的各词语的向量值,与对应的当前网络文档的各词语的向量值分别相乘,获得的积相加,作为第一数据;
将相同主题网络文档中各词语的向量值分别平方后,相加;将当前网络文档中各词语的向量值分别平方后,相加;将上述计算的和相乘,再开方,作为第二数据;
所述第一数据除以所述第二数据的商,作为相同主题网络文档与当前网络文档的相关度值。
4.如权利要求1至3任一项所述的方法,其特征在于,获取当前网络文档中每个词语的权重值具体为:
在当前网络文档中统计各词语的出现频次,获取各词语命中的索引文档数量和总索引文档数量;
将总索引数量除以该词语命中的索引数量,再取对数,得到的数值乘以上述出现频次,得到该词语的权重值。
5.如权利要求4所述的方法,其特征在于,在当前网络文档中统计各词语的出现频次具体为:
获取该词语在当前网络文档中出现的位置,及在该位置的出现次数;
将词语在该位置的出现次数乘以该位置对应系数,乘积相加后作为该词语的出现频次。
6.如权利要求4所述的方法,其特征在于,在当前网络文档中统计各词语的出现频次具体为:
统计词语在当前网络文档中出现次数;
判断该词语是否在网络文档主题位置出现,如是,在该词语总出现次数上加设定数值,作为该词语的出现频次。
7.一种聚合相同主题网络文档的系统,其特征在于,包括权重值计算模块、检索词组成模块、网络文档检索模块、及聚合模块:
所述权重值计算模块,用于获取当前网络文档中各词语的权重值;
所述检索词组成模块,用于将上述各词语按权重值降序排列,从首个词语开始,依次将上一词语及同该词语相临的下一词语组成检索词;
所述网络文档检索模块,用于利用组成的检索词检索相同主题网络文档,直至某个检索词检索的相同主题网络文档数量超过预置数值;
所述聚合模块,用于聚合上述当前网络文档和相同主题网络文档。
8.如权利要求7所述的系统,其特征在于,还包括向量值模块,相关度计算模块、去除模块:
所述向量值模块,用于使用哈希表表示当前网络文档和相同主题网络文档中各词语的向量值;
所述相关度计算模块,用于依据所述各词语的向量值计算所述相同主题网络文档与当前网络文档的相关度值;
所述去除模块,用于去除相关度值低于预设数值的相同主题网络文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810088055.7/1.html,转载请声明来源钻瓜专利网。





