[发明专利]一种检索信息、信息处理的方法及装置无效
| 申请号: | 200910242994.7 | 申请日: | 2009-12-21 |
| 公开(公告)号: | CN102103610A | 公开(公告)日: | 2011-06-22 |
| 发明(设计)人: | 闫进兵;徐剑波;张杰;赵东岩 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 检索 信息 信息处理 方法 装置 | ||
技术领域
本发明涉及计算机及信息处理领域,特别是涉及检索信息、信息处理的方法及装置。
背景技术
全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索中需要大量用到排序操作,如对分词的词表进行排序后建立倒排索引以便快速查找,对结果集进行排序等等。而比较是排序的基础。在对文本内容进行比较时,常见的做法是按字符内码(如GB2312、Unicode等内码格式)进行比较,来确定其顺序。字符内码是按照英文和数字等的大小或先后进行排序,利用该字符内码可实现快速比较。对汉字来说,只规定了一段内码区间用于汉字,但这段内码的顺序往往没有意义。若希望将汉字按照拼音/笔画顺序排序,则现有技术通过应用程序接口(API)函数查找每个汉字的拼音/笔画,再对所有汉字的拼音/笔画进行比较和排序。该方案的执行效率较低。
另外,在信息检索中,例如希望检索到按拼音顺序姓安到姓李的所有作者的文章,则需要列举出从姓安到姓李的所有的姓,然后再根据这所有姓的内码进行检索,该方式的检索效率较低。
发明内容
本发明实施例提供一种检索信息的方法及装置,用于提高检索信息的效率;还提供一种信息处理的方法及装置,用于提高信息排序的效率。
一种检索信息的方法,包括以下步骤:
将输入的两个关键词与索引项中的词条进行匹配;其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
在索引项中检索匹配成功的两个词条之间的所有词条。
一种信息处理的方法,包括以下步骤:
获得包含属性编号与汉字的对应关系;该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的;其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
获得索引项的每个词条中的汉字对应的属性编号;
根据获得的属性编号对索引项中的词条进行排序。
一种检索装置,包括:
匹配模块,用于将输入的两个关键词与索引项中的词条进行匹配;其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
检索模块,用于在索引项中检索匹配成功的两个词条之间的所有词条。
一种用于信息处理的装置,包括:
关系模块,用于获得包含属性编号与汉字的对应关系;该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的;其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
查询模块,用于获得索引项的每个词条中的汉字对应的属性编号;
排序模块,用于根据获得的属性编号对索引项中的词条进行排序。
一种获得汉字编码表的方法,包括以下步骤:
对汉字属性进行排序,并对排序后的每个汉字属性进行顺序编号,得到属性编号;
确定汉字属性对应的汉字;
根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系,获得包含属性编号与汉字的对应关系的汉字编码表。
本发明实施例对汉字的属性进行排序,并顺序编号,然后根据该编号对索引项中的词条进行排序,提高了对词条的排序效率。并且在对排序后的词条进行检索时,可提高检索的效率。
附图说明
图1为本发明实施例中获得汉字编码表的主要方法流程图;
图2为本发明实施例中获得汉字编码表的详细方法流程图;
图3为本发明实施例中信息处理的主要方法流程图;
图4为本发明实施例中信息处理的详细方法流程图;
图5为本发明实施例中检索信息的方法流程图;
图6为本发明实施例中排序装置的结构图;
图7为本发明实施例中检索装置的结构图。
具体实施方式
本发明实施例对汉字的属性进行排序,并顺序编号,然后根据该编号对索引项中的词条进行排序,提高了对词条的排序效率。并且在对排序后的词条进行检索时,可提高检索的效率。
本实施例排序和检索的基础都在于对属性进行顺序编号,下面首先对该编号过程进行介绍。
参见图1,本实施例中获得汉字编码表的主要方法流程如下:
步骤101:对汉字属性进行排序,并对排序后的每个汉字属性进行顺序编号,得到属性编号。本实施例中,在对汉字进行比较、排序和检索等过程中,均可用属性编号代替汉字的内码来进行各项操作。
步骤102:确定汉字属性对应的汉字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910242994.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





