[发明专利]一种拼音文字词库的设计方法无效
| 申请号: | 97107524.7 | 申请日: | 1997-05-29 |
| 公开(公告)号: | CN1167952A | 公开(公告)日: | 1997-12-17 |
| 发明(设计)人: | 王本善 | 申请(专利权)人: | 王本善 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610041 四川省成都市南一*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 拼音文字 词库 设计 方法 | ||
本发明涉及一种拼音文字词库的设计方法,特别是依照词汇的首、尾部的部分字母进行排序的设计方法。
现行拼音文字的词库排序设计,不管是英、俄、法、德等文种,几乎都基于同一种法则,即字母序排序规则,那就是:依照该文种的字母顺序,先按排序对象的第一个字母排序;第一个字母相同的,按第二个字母排序...。若把这种依赖其文字字母序的词库设计方法称之为字母排序设计方法,那么,现行方法就是一种完全式的字母排序设计方法,它考虑每一个词的每一个字母。由于完全式字母排序设计法属于一种检索方法,因而具有诸多优点。例如,容易操作、适于计算机处理、词库条目清楚、次序严谨而利于浏览,等等,然而,由于排序时所用字母完整无遗,在词汇较长时,查询速度必然受限;其次,当若干个在词的中后部分仅有个别字母有差别的词条铰多时,必须小心浏览才能避免回头重查行为的发生。这对于以目视者为使用对象的词典,特别是书籍性词典而非计算机内的词典来讲,是不很方便的。事实上,利用依照完全字母排序设计方法编辑而成的拼音文字词典查寻词条,一般总是翻页快,但越近目的就越费力而效率很低。可以说,完全式字母排序设计法虽是一种检索式的词汇排序法,但却是检索速度最慢的词库的词汇排序设计法。
本发明的任务,是提供一种多级字母排序设计方法,使拼音文字词库的可捡索性更强,使词汇查寻速度更快。
实现本发明的技术路线是,在词库排序时,将排序依据由词汇本身改为词汇的被分割出的一部分字母;将词库排序过程由一气呵成改为分级进行,多次完成;每级排序时,词汇的位置由该词汇在该级排序里的作为排序依据的那部分字母被排定的位置所确定,而一个具体词汇在词库里的最终位置,由各级的排序过程逐步确定;每级的排序依据互不相同,分别来自原词汇被分割后的某个部分;每级的排序过程,仍以该种文字的字母序规则进行。本发明具体采用的方法是,将拼音文字词汇分割为三个部分,而用词的前,后两部分作为词库前两级排序的设计依据。这种设计方法,下文里,称作首、尾码设计方法。
所谓拼音文字字库的首、尾码设计法,是为每一在编词汇定出其首码与尾码,然后将所有在编词汇以其首码排序,在首码相同时,依其尾码排序的方法。在词汇众多时,我们还可以在必要时加入对首、尾码均相同时的词汇的排序设计方法;在词汇较少时,我们也可因为必要性不大而对首、尾码相同的词汇仅作非排序式的罗列。但是,只要首两级的排序原则是先首码后尾码,都符合本发明所云的首、尾码设计法。它仍然是一种依照字母的排序设计方法,只是属于一种非完全式字母排序设计法。
本发明的技术路线的好处是相当明显的。首先,使用这种方法而成的词典,查词时的翻页仍然十分迅速。假如依所说的首、尾码编辑的某英语词典共有2000页,而其所用的首码长度定为两个字母。那么,该词典可能有26*26=676个首码形态。每个首码平均控制3页词汇。自然,极易依据待查词的首码翻到该词的大致所在页。接着,使用尾码进行检索。假若尾码有一个字母长,则每个尾码平均只有3页/26=0.12页的词汇。由于这些首码相同的词汇是依尾码的字母序排列成块,而极易被找到,这就是待查词更进一步的大致位置。更有意思的是,在首,尾码均相同的平均0.12页的空间内的词汇,因其长短等形态差异而可能反差极强,从而使查询词汇的最后阶度也变得轻松。例如,在这种词典里,词汇interest与inset排在一起。当我们要查询inset时,不是自然而然地不会去注意长度较大的interest了吗?岂不省时、省力!
本技术路线也有一些缺点,主要是同一词根的词可能因首、尾码不同而被分开了,如英文的interesting和interest,因尾码不同而位置距离增大了。
具体的实施本发明的方案有多种。它们以首、尾码的设计不同而异。
第一种方案是:依次取一个词的前两个字母作为该词的首码,取该词的最后一个字母作为其尾码。对词汇排序时,先由首码之顺序为所有词汇排出先后;首码相同者,依尾码之顺序排出先后;首尾码均相同者,由词的首、尾码以外的部分排序。下面是本方案对21个词汇的排序结果:
rational
rarely
rind
ride
riddance
rigmarole
ripple
ring
ripping
rising
rich
rightful
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王本善,未经王本善许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/97107524.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改善食糖包装的方法
- 下一篇:机械压力机的滑板驱动装置





