[发明专利]一种仅针对产品或服务供需信息的搜索方法无效
申请号: | 200610027851.0 | 申请日: | 2006-06-15 |
公开(公告)号: | CN101089843A | 公开(公告)日: | 2007-12-19 |
发明(设计)人: | 王刘忠 | 申请(专利权)人: | 王刘忠 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈亮 |
地址: | 214400江苏省江阴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 产品 服务 供需 信息 搜索 方法 | ||
技术领域
本发明属于互联网信息搜索领域,特别是仅针对产品或服务供需信息的搜索查询。
背景技术
随着互联网的高速发展,网络上的信息呈现爆炸式的增长。面对丰富的信息海洋,自主查询已经成为网民们获取信息的重要手段。尽管已经有大批的网络服务商推出了各自的信息检索工具,但依然不能使网民们准确、详细、全面地查找到他们各自需要的信息内容,尤其是各种产品或服务供需信息。
目前网络信息检索的技术原理主要有分类目录和全文检索两种。
分类目录就是让用户通过浏览层次型的目录类别来寻找相应的信息资源。严格地说,它还不是一种搜索技术。它需要事先按一定的分类组织体系编制出相应的目录主题,然后再用人工方式对每则信息分别进行基于内容理解后的分门别类,最后让用户逐层浏览目录、逐步细化直至找到具体信息。其缺点是缺乏可扩充性和灵活性,只能保持单一主题的准确性,但无法详细区分各种不同性质的小类主题。因为当信息涉及到多个不同性质的主题时,必定涉及超大量的组合式分类:首先这些巨量分类会让用户眼花缭乱,其次如果硬是要详细分类的话,则会有很多信息同时符合多个类别,即出现严重的兼类现象,最终导致发生网站在归类时的紊乱,以及用户在查找时的不知所措。
全文检索则是让用户通过输入搜索关键词来查找相应的信息内容,通常把该原理的检索工具叫做搜索引擎。顾名思义就是在信息的全文中搜寻是否包含有用户指定的搜索关键词,如果包含就把该信息作为搜索结果之一,并按信息相关程度进行排序后向用户输出。整个搜索系统一般有四个组成部分:1)信息采集系统:通常由一种叫Robots的软件日夜不停地从互联网上搜集大量的网页地址及其文本;2)分析索引系统:把收集回来的网页信息进行全文分析和索引,以建立索引数据库,其难点之一在于分析和计算每个词与该信息在内容上的相关程度,具体方法有按关键词在文本中的出现频率、按词的出现位置、按页面的访问量以及按超链接分析等(在最初版本中,还没有计算词的权重,因此当时纯粹是机械式的全文索引和检索),另一难点是对于中文来说还存在分词问题;3)检索排序系统:根据用户输入的搜索关键词,检索出符合要求的所有信息,并按相关度排序;4)页面生成系统:把排序后的结果按一定的页面格式向用户输出。
上述检索方法的缺陷在于,将混杂出现大量的与查询内容毫不相干的无用结果,导致用户还要从中逐一挑选。根本原因之一是对出现在信息全文中的任何词语,不论是否与内容相关都进行了索引。而明显的事实是,用户所输入的每个搜索关键词都是被赋予具体内容含义的,即用户进行的都是基于内容的检索。那么可解决的办法有:1)如果要确保只是检索到基于内容的结果,则必须首先只是按内容索引,即断然放弃全文索引和检索;2)或者当无法严格只是按内容索引的情况下,可以在全文索引和检索的基础上,再按相关度排序后优先输出最准确内容的变通办法。
目前,对于放弃全文索引和检索而只是按内容索引和检索的解决办法,还没有被公开提出和使用,因为大家都还习惯于在全文检索的基础上考虑如何更好解决相关度问题。但是,现有的各种相关度分析方法,都不具备应有的可信度。例如,按词位分析是认为词语在标题中出现要比在正文中出现时的相关度稍高些,尽管有较高的可信度,但判断的结果似乎只有两种,要么是标题中的高,要么是正文中的低;而如果再要求比较在正文中的先后位置来判断相关度,则基本没有可信度了,因此这种方法的比较结果太简单,且比较的对象仅限于在标题中出现的词语导致范围太窄。
按词频分析,是认为词语在文本中出现的次数越多则相关度越高,但仅凭对一个词语的判断就得出不同信息之间的相关度高低,这种判断明显是势单力薄,还需增加多个判断依据才具备足够的说服力。
按访问量分析,是认为被用户访问过的次数越多则相关度越高,但信息被发布时间的早晚会严重影响判断结果,而且访问量多少与相关度高低之间并不存在必然性联系。
按超链接分析就是借助超链接文本的数量和内容相关度来加大原有文本的内容相关度,但前提是两个文本之间的内容要基本相似,否则达不到增重作用,而且该分析仅是表面性判断,例如一字不差的两个文本,会由于超链接情况的不同而得出完全不同的相关度来,真有些令人匪夷所思。
其它分析方法还有按字体大小判断,按是否加粗判断,按是否用KeyWord标识过等等。但都无法真正解决词语与信息的相关程度,因为判断的依据只是字体、位置、频率、访问量、超链接等一些表面特征,并非真正按内容关联性进行相关度判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王刘忠,未经王刘忠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610027851.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在电子装置内减缓静电放电损害的组件
- 下一篇:一种枇杷花醋及其制备方法