[发明专利]搜索辅助系统、搜索辅助方法及程序有效

专利信息
申请号: 201010140447.0 申请日: 2010-04-02
公开(公告)号: CN101840420A 公开(公告)日: 2010-09-22
发明(设计)人: 李春平;王益斌;阿部昌平 申请(专利权)人: 清华大学;株式会社野村综合研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084 北京市10*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 辅助 系统 方法 程序
【说明书】:

所属技术领域

本发明涉及一种搜索辅助系统、搜索辅助方法以及搜索辅助程序,特别是用于有效率地提取符合用户意图网页的技术。

背景技术

如今,通过向Google(注册商标)或Yahoo!(注册商标)等因特网上的搜索网站发送搜索关键词,任何人都可以轻松地获得各种信息。

比如,正在考虑买入某股票品种的的普通投资者,只要在搜索网站的搜索栏里输入该品种的企业名称,提交搜索请求,关于该企业的网页列表就会作为搜索结果返回,显示在Web浏览器上。

投资者由此对新闻报道、消息发布、博客文章等逐个阅览,以确认该企业的最新动向。

而如果发现新产品信息或丑闻等可能对股价造成影响的报道,则可通过将该报道中使用的合适关键词添加到企业名后,继续进行进一步搜索,从而得以集中收集到所需信息。

【非专利文献1】Google

网络URL:http://www.google.co.jp/

搜索日期:平成22年1月16日

【非专利文献2】Yahoo!JAPAN

网络URL:http://www.yahoo.co.jp/

搜索日期:平成22年1月16日

发明内容

传统的利用搜索网站的搜索方式,需要用户自己选定追加的关键词并将其再次输入搜索网站,在得到所期望的搜索结果前需要不断重复操作,非常麻烦。

本发明意在解决传统方法中的该问题,以实现能高效率地提交符合用户搜索意图网页的技术为目的。

为了达到上述目的,要求项1中所记载的搜索辅助系统具备以下特征,即包含了:

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的技术手段;

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的技术手段;

在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的手段;

对每一个被提取关键词生成以与(AND)条件将其与上述搜索关键词相连的搜索公式,并将各搜索公式发送至搜索服务器、提交搜索请求的技术手段;

在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的手段;

可计算各搜索公式相关的相似候选网页间相似度的计算方法;

将相似度高的指定数目的搜索公式相关关键词认定为重要词语的技术手段;

在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定为相似网页的技术手段;

生成含有该相似网页列表的页面并将其发送至客户端的技术手段。

要求项2中所记载的搜索辅助系统以要求项1中的系统为前提,而其中页面间相似度计算方法,其特征在于:将各搜索公式相关的相似候选网页中的某一相似候选网页设定为比较对象网页,并分别计算该比较对象网页与其余相似候选网页间的相似度,在所有计算结果中按序抽出指定数目的结果,计算出这些相似度结果的平均值作为临界值;重复以上所有处理直至该搜索公式相关的所有相似候选网页都被设定为比较对象网页后,将得到的所有临界值中的具有最大值的临界值设定为该搜索公式相关的页面间相似度。

要求项3中所记载的搜索辅助系统以要求项2的系统为前提,而其中页面间相似度计算方法,其特征在于以下处理:将上述比较对象网页与其他相似候选网页分解为语素单位,从各网页提取出与指定词性相关的语素,计算被提取的各语素的TF-IDF值,并根据各语素的该TF-IDF值将各网页进行矢量化处理,计算比较对象网页矢量与其他相似候选网页矢量的标量积(dot product),作为两个网页之间的相似度。

要求项4中所记载的搜索辅助方法,其特征由以下步骤组成:

将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求;

将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择;

在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词;

对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式,并将各搜索公式发送至上述搜索服务器、提交搜索请求;

在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页;

可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;株式会社野村综合研究所,未经清华大学;株式会社野村综合研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010140447.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top