[发明专利]基于话题的新闻检索装置及方法无效

专利信息
申请号: 201210274765.5 申请日: 2012-08-03
公开(公告)号: CN102831192A 公开(公告)日: 2012-12-19
发明(设计)人: 李德聪;方庆安;杨青 申请(专利权)人: 人民搜索网络股份公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汇泽知识产权代理有限公司 11228 代理人: 刘淑敏
地址: 100020 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 话题 新闻 检索 装置 方法
【权利要求书】:

1.一种基于话题的新闻检索装置,其特征在于,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中:

采集分析模块,用于采集新闻网页,并提取相应的特征;

聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;

索引建立模块,用于对话题和新闻网页建立索引;

查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;

结果输出模块,用于对检索结果进行排序和输出。

2.一种基于话题的新闻检索方法,其特征在于,主要包括:

A、采集新闻网页,对新闻网页进行分析,提取特征的步骤;

B、对新闻网页聚类,产生话题及其特征向量的步骤;

C、对话题和新闻网页建立索引的步骤;

D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及

E、对检索结果进行排序和输出的步骤。

3.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤A所述采集新闻网页并对新闻网页提取特征,包括:

A1、采用网络爬虫采集新闻网页;

A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。

4.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤B所述对新闻网页聚类、产生话题及其特征向量,包括:

所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。

5.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤C所述对话题和新闻网页建立索引,主要包括:

C1、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息;

C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。

6.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括:

D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为token。

7.D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度;

D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。

8.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210274765.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top