[发明专利]基于话题的新闻检索装置及方法无效

专利信息
申请号: 201210274765.5 申请日: 2012-08-03
公开(公告)号: CN102831192A 公开(公告)日: 2012-12-19
发明(设计)人: 李德聪;方庆安;杨青 申请(专利权)人: 人民搜索网络股份公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汇泽知识产权代理有限公司 11228 代理人: 刘淑敏
地址: 100020 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 话题 新闻 检索 装置 方法
【说明书】:

技术领域

发明涉及互联网信息处理领域的文本聚类、信息检索技术,尤其涉及一种基于话题的新闻检索装置及方法 。 

背景技术

随着以互联网为代表的信息技术的快速发展,信息的数量越来越大、传播速度越来越快,影响范围越来越广。在此大环境下,网络新闻也日益显现出多元化的特点。对于同一话题,很可能存在多篇采取不同角度、产自不同媒体、持有不同观点的新闻。用户在检索新闻时,如果能以话题为单位,展示与话题相关的新闻、数据等,则与传统的单纯展示以单篇新闻为单位的检索结果相比,可以帮助用户一目了然的了解该与其查询相关的舆论情况,取得更好的用户体验。 

目前,提供新闻检索的网站,主要为各专业新闻媒体官方网站、门户网站、搜索引擎的新闻垂直搜索频道等。这些网站的新闻检索还有很大改进余地。这些网站的新闻检索主要依赖于对单篇新闻建立索引,用户输入查询后,考察用户查询和单篇新闻的相关度。有些网站只能单纯展示以单篇新闻为单位的检索结果;有些网站的检索结果只是简单的把重复的新闻组合在一起;有些网站虽然能够依靠某种技术,确定属于同一话题的各篇新闻,但其在处理用户查询时,采取的是先考察用户查询和单篇新闻的相关度,再把与各单篇新闻相关的新闻组合展示的方式,没有从根本上和深层次上考察用户查询和各话题的相关度。 

发明内容

有鉴于此,本发明的主要目的在于提供一种基于话题的新闻检索装置及方法,在用户检索新闻时,从根本上和深层次上考查各话题和用户查询的相关度,并把检索到的话题和常规新闻网页结合展示。 

为达到上述目的,本发明的技术方案是这样实现的: 

一种基于话题的新闻检索装置,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中:

采集分析模块,用于采集新闻网页,并提取相应的特征;

聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;

索引建立模块,用于对话题和新闻网页建立索引;

查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;

结果输出模块,用于对检索结果进行排序和输出。

一种基于话题的新闻检索方法,主要包括: 

A、采集新闻网页,对新闻网页进行分析,提取特征的步骤;

B、对新闻网页聚类,产生话题及其特征向量的步骤;

C、对话题和新闻网页建立索引的步骤;

D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及

E、对检索结果进行排序和输出的步骤。

其中,步骤A所述采集新闻网页并对新闻网页提取特征,包括: 

A1、采用网络爬虫采集新闻网页;

A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。

步骤B所述对新闻网页聚类、产生话题及其特征向量,包括: 

所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。

步骤C所述对话题和新闻网页建立索引,主要包括: 

C1、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息;

C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。

步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括: 

D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为token。

D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度; 

D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。

对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。 

本发明所提供的基于话题的新闻检索装置及方法,具有以下优点: 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210274765.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top