[发明专利]电子文本处理与检索的便捷方法和系统无效
| 申请号: | 200710164298.X | 申请日: | 2007-10-24 |
| 公开(公告)号: | CN101201841A | 公开(公告)日: | 2008-06-18 |
| 发明(设计)人: | 刘二中 | 申请(专利权)人: | 刘二中 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100089北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电子 文本 处理 检索 便捷 方法 系统 | ||
(1)技术领域
本发明涉及计算机及搜索引擎关于电子文本处理与检索的技术。
(2)背景技术
数十年来,计算机数据库检索技术有了极大发展,特别是万维网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索系统。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。
以关键词搜索为核心的搜索引擎技术为用户带来了便利。以搜索引擎为核心的搜索系统一般位于一个或多个服务器或其他计算机装置上,由文本(页面)库、文本索引库、根据对文本库的文本分析得到文本索引的索引构造器,以及接受查询生成搜索结果的查询器等部分组成,往往还附带有为文本库从互联网或其他信息源搜集和增添文本的数据采集服务器。该系统可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。
人们还发展了将关键词与指向有关文本的锚内容(anchor text)描述相比较来确定相关性的技术,仍然不能使检索者十分满意。为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。
然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。例如,我们利用“谷歌”中文网站搜索“布林”一词,可以得到近30万条索引。我们仍然不能保证可以无一遗漏地在靠前的位置上查阅到期望的内容,做到既严密又比较方便。同时,我们在读到期望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。
为了解决这一问题,近十年来人们一直试图发展各种新的搜索引擎技术,例如,第6421675号美国专利涉及的“按照重要性的优先次序列表”的技术,第6256633号美国专利涉及的“根据使用者查询数据的历史形成动态对象表”的技术,CN1151457号中国专利的“与其他查询者共享查询信息”技术,第6990628号美国专利有关“测量电子文本相似性”的技术。这些技术具有某些优点,但效果十分有限。
第7089236号美国专利的技术可以对查询者提出的关键词进行语义分析,并将不同的可能语义呈现于交互界面,帮助查询者缩小搜索范围。与之相近的中国专利申请第200510081867.5号的技术,通过使用网页类别信息分散搜索引擎的关键词搜索结果。这两种技术的问题在于,首先必须建立十分复杂庞大然而不可能准确的分类数据库,由机器判断某一页面或文本属于某关键词的哪一条或哪几条的语义或类别是十分困难的,其可靠性不高。一个关键词的不同语义或类别之间很可能重叠更可能存在空白。如果增加分类的层次,重叠将造成占用存储空间的暴增。同时,关键词搜索的查询者面对不熟悉的领域,对诸多语义或分类也难于准确把握。这些都严重影响了查询效率的提高。
因此,人们迫切需要一种既严密又高效的关键词搜索引擎系统技术,能够有效地帮助查询者缩小甚至多次缩小查阅范围。要求不同范围之间分界明确,容易判断,没有重叠也没有空白,以大大加快查询者得到期望结果的速度,并保证搜索的严密性。这也成为多年来未能解决的世界性难题。
(3)发明内容
本发明的目的就是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的技术,在用户进行关键词检索而面对海量的搜索结果时,能迅速而严密地多次缩小搜索范围,或剔除各类无关信息或重复信息,准确地得到所期望的结果而很少遗漏。
本发明的一个方面是提供了一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:
获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘二中,未经刘二中许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710164298.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像处理设备、图像处理方法、程序、及存储介质
- 下一篇:粘合剂组合物及方法





