[发明专利]将词组索引技术应用在互联网搜索引擎中的方法无效
申请号: | 200710143024.2 | 申请日: | 2007-08-21 |
公开(公告)号: | CN101196898A | 公开(公告)日: | 2008-06-11 |
发明(设计)人: | 邓剑波;戴云川;詹天荣;张潘;高潮;周波;张森;胡显如 | 申请(专利权)人: | 新百丽鞋业(深圳)有限公司;邓亚丽 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518033广东省深圳市福田中心区福华一*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词组 索引 技术 应用 互联网 搜索引擎 中的 方法 | ||
技术领域
本发明主要涉及互联网搜索引擎的底层关键技术——“文本索引”方式的创新以及为完善此技术而需要的前端处理的一些创新。本发明是将词组索引的理论实际应用到互联网搜索引擎的索引构成中。由于词组索引可以大幅提高检索内容与被检索内容之间语意的相关性,因而也可以说是为互联网搜索引擎提供的一种智能化的检索方法。
背景技术
互联网搜索引擎(以下简称搜索引擎)是搜索网页及网站的工具。目前的搜索引擎的基本原理是通过网站或网页的收集程序,从互联网上自动搜集网页地址及其文本,然后将搜集到的网页文本交给索引和检索系统,由计算机扫描文本中每一个词,建立以词为单位的倒排文件,检索程序根据用户给出的检索词在文本中出现的频率和概率,对包含这些检索词的文本进行排序,最后输出网页及网站的排序结果。
这种搜索方法存在以下几点严重的缺陷:
第一,无用的(或者对于检索词不相关或相关性低的)搜索结果过多。这是因为单一检索词在文本中出现的概率和频率并不完全代表检索词与文本内容的相关性的值。
第二,这种搜索引擎的查询方式实质上是基于关键词,对于输入完整的句子进行查询的效果很不理想,这种按关键词出现的频率或者点击次数一类的网页排序方法所排出的顺序,在输入句子查询的情况下,不能很好的体现检索句与文本内容相关性的高低,见图1。
第三、现存的搜索引擎对查询的关键词匹配是模糊的,这样有利于得到更多结果,但是却导致很多无用的结果充斥进来,甚至干扰到较好的结果的出现位置,而且这些搜索引擎对问句没有做特殊处理,效果相对不好,见图2。
第四、现存的搜索引擎中没有限制多个关键词同时出现的范围,所有的词组生成工作不限于在当前句内,有可能出现将不同句子包含的关键词组合到一起的情况, 例如:我们搜索“中国情人节的礼物”这句话,使用目前流行的搜索引擎得出的结果很可能是像这样:
“…与西方情人节不同…还具有深厚的中国文化底蕴,…且看我们为你准备的礼物攻略…”,完全不能体现查询语句的整体意思,见图3。
发明内容
本发明的目的是在于将词组索引技术应用在互联网的搜索引擎中,可以避免上述缺陷,使搜索引擎更具人性化,从而获得更具合理性的结果(即合乎用户搜索意图的结果更靠前)。
本发明将词组索引技术应用在互联网搜索引擎中的方法,包括以下几个步骤:
步骤一:自动积累网页信息:
首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;
步骤二、处理用户的查询信息:
首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。
步骤三、检索匹配并获得搜索结果:
首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。
在搜索引擎分析网页文本时,把网页文本切分为若干关键词,并把这些词排列成为词语组合的形式,将其以“词组->网页id1,网页id2,…”这样的倒排表的形式记录到磁盘或内存中的索引文件里。
在搜索引擎分析网页文本时,所有的词组生成工作都限于在当前句内,不同句子中包含的关键词不能组合到一起。
在搜索引擎处理用户的查询信息时,利用问句模式匹配程序,将用户的查询信息的问句转换成陈述句。
将用于索引和检索的词组集,按词组长短排序,长的在前短的在后。
在获得索引和检索的词组集的过程中,去除一些无意义的组合,所述的无意义的组合是指虚词组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新百丽鞋业(深圳)有限公司;邓亚丽,未经新百丽鞋业(深圳)有限公司;邓亚丽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710143024.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑料及其他混杂垃圾再生处理工艺
- 下一篇:水压即时灭火器