[发明专利]一种嵌入式电子词典词库结构无效
申请号: | 200710032359.7 | 申请日: | 2007-12-11 |
公开(公告)号: | CN101183369A | 公开(公告)日: | 2008-05-21 |
发明(设计)人: | 王建民;罗笑南;陈佳鹏 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州广信知识产权代理有限公司 | 代理人: | 李玉峰 |
地址: | 510275广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 嵌入式 电子词典 词库 结构 | ||
技术领域
本发明涉及一种数据库技术领域,尤其涉及一种嵌入式电子词典的词库结构。
背景技术
目前,电子词典组织结构大多采用一级索引的物理结构。使用这种结构时,必须在整个索引内进行查找来匹配输入的词头,而且一般情况下都是采用定长的索引,以便用二分法在索引中进行查找匹配。采用这种方式进行索引,数据量一般比较大,在嵌入式系统中只能将其放在外存中,因此查询速度比较慢。而当词库的规模达到一定程度时,对于这种结构的词库,搜索效率会大打折扣。同时,定长的索引结构还会带来较大的空间浪费。此外,嵌入式系统本身的处理能力和存储容量都极为有限,在词库规模较大的情况下,使用上述结构,查询效率和空间利用率都非常低,用户使用极为不便,严重影响了词典的有效性和实用性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种合理有效的嵌入式电子词典词库结构,以便在单词的查询过程中,尽可能地降低处理器的运算量,减少查询时的匹配次数,提高总体查询速度,并将最坏的查询时间控制在可以接受的范围之内,从而达到快速实用的目的。
本发明的目的通过以下技术方案予以实现:
本发明提供的一种嵌入式电子词典词库结构,由字典树层、索引流层和信息流层构成,其中所述字典树层为第一层且常驻内存,索引流层和信息流层分别为第二层和第三层;
所述字典树层为树形索引区以快速定位单词,其每个树结点包含:结点标识符、子结点的信息、与其对应的索引结点在第二层索引流层中的偏移量;
所述索引流层用于提供与输入单词最接近的一系列单词列表以最终定位单词,每个单词在索引流层中都有一个索引结点,每个索引结点包含:单词的匹配信息、该单词对应的信息在第三层信息流层中的偏移量;
所述信息流层用于存放单词的具体解释信息;
所述字典树层的树结点指向索引流层中与其对应的索引结点;索引流层其索引结点中的单词指向信息流层中该单词的解释信息块。
本发明中第一层的字典树层为一个树形快速索引区,其总数据量比较小,在打开词典进行单词查询前整个字典树层读入内存,大大提高了字典树层的访问速度,从而能够对单词进行快速的初步定位,为单词的查找起到极为重要的作用。
根据用户输入的单词,结合该单词的第一个字母以及结点标识符,在第一层树层找到对应的树结点;然后结合单词的第二个字母以及该树结点中的子结点信息,以定位子结点并跳转到该子结点上......,依此类推到达符合输入要求的树结点。若当前树结点下面没有所需要的子结点,则从当前树结点读出该树结点对应的索引结点在第二层索引流层中的偏移量,加上索引流层层首在文件中的偏移量,计算出对应的索引结点在文件中的位置,从而可以跳转到该索引结点上,进行在索引流层中的下一步操作。
索引流层是从字典树层跳到信息流层查找具体单词信息的一个中间桥梁,索引流层不保存单词的具体解释信息,而是提供与输入单词最接近的一系列单词列表以最终定位单词。词典中的每个单词在索引流层中都对应存在一个索引结点。索引结点中的单词匹配信息用于与用户输入的单词进行匹配,可以为单词的词头Headword和/或单词的关键词Key。其中Headword用于显示,Key用于搜索时的匹配。例如在朗文字典中,显示出来Headword是包括音节分隔符的,而Key没有。例如telephone的Headword为“te·le·phone”而Key为“telephone”。在这种情况下,索引结点中的单词信息必须同时包含用于显示的Headword和用于匹配的Key。
根据字典树层可以定位到某个单词前缀的索引在索引流层中的位置,然后从该索引结点开始,将要查找的单词与索引结点中单词内容进行匹配,从而可以很方便的从索引流层中提取出最接近用户输入的一系列单词的列表查找到该单词。由于索引流层不保存单词的具体解释信息,在索引流层中只是在单词列表中进行向前或向后搜索单词的操作,因此比较方便和快捷。如果没有索引流层,则需要在保存单词解释信息的信息流层中提取单词列表,由于信息流层中单词结构体一般比较复杂,所以提取单词列表的操作也会耗时耗力。
当用户选定一个单词之后,从该单词的索引结点读出该单词对应的信息在第三层信息流层中的偏移量,从而可以计算出单词解释信息在文件中的位置,跳转到信息流层中相应的位置做下一步操作,查看该单词的详细解释信息。
本发明还可采取如下进一步措施:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710032359.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:管道自动球清洗系统球回收器
- 下一篇:一种数字卫星接收装置