[发明专利]基于话题的新闻检索装置及方法无效
申请号: | 201210274765.5 | 申请日: | 2012-08-03 |
公开(公告)号: | CN102831192A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 李德聪;方庆安;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 话题 新闻 检索 装置 方法 | ||
1.一种基于话题的新闻检索装置,其特征在于,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中:
采集分析模块,用于采集新闻网页,并提取相应的特征;
聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;
索引建立模块,用于对话题和新闻网页建立索引;
查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;
结果输出模块,用于对检索结果进行排序和输出。
2.一种基于话题的新闻检索方法,其特征在于,主要包括:
A、采集新闻网页,对新闻网页进行分析,提取特征的步骤;
B、对新闻网页聚类,产生话题及其特征向量的步骤;
C、对话题和新闻网页建立索引的步骤;
D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及
E、对检索结果进行排序和输出的步骤。
3.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤A所述采集新闻网页并对新闻网页提取特征,包括:
A1、采用网络爬虫采集新闻网页;
A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。
4.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤B所述对新闻网页聚类、产生话题及其特征向量,包括:
所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。
5.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤C所述对话题和新闻网页建立索引,主要包括:
C1、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息;
C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。
6.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括:
D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为token。
7.D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度;
D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。
8.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210274765.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于空间滤波器的人脸识别方法
- 下一篇:多级存储的重部署方法及装置