[发明专利]基于话题的新闻检索装置及方法无效
申请号: | 201210274765.5 | 申请日: | 2012-08-03 |
公开(公告)号: | CN102831192A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 李德聪;方庆安;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 话题 新闻 检索 装置 方法 | ||
技术领域
本发明涉及互联网信息处理领域的文本聚类、信息检索技术,尤其涉及一种基于话题的新闻检索装置及方法 。
背景技术
随着以互联网为代表的信息技术的快速发展,信息的数量越来越大、传播速度越来越快,影响范围越来越广。在此大环境下,网络新闻也日益显现出多元化的特点。对于同一话题,很可能存在多篇采取不同角度、产自不同媒体、持有不同观点的新闻。用户在检索新闻时,如果能以话题为单位,展示与话题相关的新闻、数据等,则与传统的单纯展示以单篇新闻为单位的检索结果相比,可以帮助用户一目了然的了解该与其查询相关的舆论情况,取得更好的用户体验。
目前,提供新闻检索的网站,主要为各专业新闻媒体官方网站、门户网站、搜索引擎的新闻垂直搜索频道等。这些网站的新闻检索还有很大改进余地。这些网站的新闻检索主要依赖于对单篇新闻建立索引,用户输入查询后,考察用户查询和单篇新闻的相关度。有些网站只能单纯展示以单篇新闻为单位的检索结果;有些网站的检索结果只是简单的把重复的新闻组合在一起;有些网站虽然能够依靠某种技术,确定属于同一话题的各篇新闻,但其在处理用户查询时,采取的是先考察用户查询和单篇新闻的相关度,再把与各单篇新闻相关的新闻组合展示的方式,没有从根本上和深层次上考察用户查询和各话题的相关度。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于话题的新闻检索装置及方法,在用户检索新闻时,从根本上和深层次上考查各话题和用户查询的相关度,并把检索到的话题和常规新闻网页结合展示。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于话题的新闻检索装置,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中:
采集分析模块,用于采集新闻网页,并提取相应的特征;
聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;
索引建立模块,用于对话题和新闻网页建立索引;
查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;
结果输出模块,用于对检索结果进行排序和输出。
一种基于话题的新闻检索方法,主要包括:
A、采集新闻网页,对新闻网页进行分析,提取特征的步骤;
B、对新闻网页聚类,产生话题及其特征向量的步骤;
C、对话题和新闻网页建立索引的步骤;
D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及
E、对检索结果进行排序和输出的步骤。
其中,步骤A所述采集新闻网页并对新闻网页提取特征,包括:
A1、采用网络爬虫采集新闻网页;
A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。
步骤B所述对新闻网页聚类、产生话题及其特征向量,包括:
所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。
步骤C所述对话题和新闻网页建立索引,主要包括:
C1、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息;
C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。
步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括:
D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为token。
D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度;
D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。
对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。
本发明所提供的基于话题的新闻检索装置及方法,具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210274765.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于空间滤波器的人脸识别方法
- 下一篇:多级存储的重部署方法及装置