[发明专利]用于建立计算机文字信息的索引和进行检索的方法和系统有效
| 申请号: | 01111999.3 | 申请日: | 2001-04-02 |
| 公开(公告)号: | CN1378157A | 公开(公告)日: | 2002-11-06 |
| 发明(设计)人: | 秦勇;李红 | 申请(专利权)人: | 佳能株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 冯谱 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 建立 计算机 文字 信息 索引 进行 检索 方法 系统 | ||
1.一种建立文字信息的索引的方法,其特征在于包括下述步骤:
在作为检索对象的一组文献中,按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置;
将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块的中存储的最大位置和最小位置;
将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置。
2.根据权利要求1的方法,其特征在于对于同一字符的所有位置获得每两个前后位置之间的差分序列,作为位置数据存储在数据库块中。
3.根据权利要求2的方法,其特征在于所述差分序列是利用一种差分算法计算,其中所述差分算法是按照以下步骤进行:
将一个字符本次的在该组文献中的位置与其前一次在该组文献中的位置的差值换算为127进制数,该127进制数的每一位数以一个8位二进制字节存储,从而每一位数的字节的最高位都是0,
将该127进制数中除个位数的每一位数的字节的最高位设置为1,以区分该字符的各个差分序列,
从而得到对应于该字符所述本次位置的差分序列。
4.根据权利要求1的方法,其特征在于在为该组文献中的一个字符建立索引时,如果该字符的当前小块中的剩余字节放不下一个新的差分序列时,使用0x00填充每个所述剩余字节,然后使用一个新小块,把该字符的当前在该组文献中的位置作为该新小块的最小位置存储在该新小块的开始的几个字节中。
5.一种存储媒体,存储有执行以下步骤的程序:
在作为检索对象的一组文献中,按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置;
将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块的中存储的最大位置和最小位置;
将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置。
6.一种计算机程序,由计算机执行以实现以下步骤:
在作为检索对象的一组文献中,按照所有文献中所有字符的顺序确定每个字符在该组文献中的位置;
将同一字符的位置数据按先后顺序存储在对应于该字符的一个或多个数据库块,并且获得每个数据库块的中存储的最大位置和最小位置;
将每个数据库块分为多个小块,每个小块包括多个字节的存储空间,并且获得每个小块中存储的最小位置。
7.一种基于根据权利要求1的方法建立的文字信息索引,对文字信息进行检索的方法,其特征在于包括以下步骤:
获得检索词中每个字符的相对位置关系,用于检索检索词中每个字符的索引;
分别判断该字符的每个数据库块中是否可能存在符合上述相对位置关系的位置;
在可能存在符合上述相对位置关系的位置的数据库块中,分别判断其中每个小块是否可能存在符合上述相对位置关系的位置;
在可能存在符合上述相对位置关系的位置的小块中,判断每个位置是否符合上述相对位置关系。
8.根据权利要求7的方法,其特征在于根据数据库块的最大位置和最小位置判断数据库块中是否可能存在符合上述相对位置关系的位置。
9.根据权利要求7的方法,其特征在于把两个连续的小块中后面的小块的最小位置看作前面小块的最大位置,对于数据库块中的最后一个小块里的字符最大位置可用它所在的数据库块的最大位置来确定,根据小块的最大位置和最小位置判断小块中是否可能存在符合上述相对位置关系的位置。
10.根据权利要求7的方法,其特征在于所述检索词中字符相对位置关系表示为如下方式:以检索词中的第一个字符为起始点,分配各个字符的位移量依次为0,-1,-2,-3…-(N-1),其中N为检索词中的字符数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01111999.3/1.html,转载请声明来源钻瓜专利网。





