[发明专利]一种中文词库的设计方法无效
| 申请号: | 96117645.8 | 申请日: | 1996-07-31 |
| 公开(公告)号: | CN1172296A | 公开(公告)日: | 1998-02-04 |
| 发明(设计)人: | 王本善 | 申请(专利权)人: | 王本善 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610041 四川省成都市南一环*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 词库 设计 方法 | ||
本发明涉及一种中文词库的排序设计方法,特别是依音码的排序设计方法。
现有词库之设计方法已有几种。现今应用于电子字词典,计算机中文输入,中文文献和中文词典的中文词条库,有多种设计结构;如词条首汉字部首排序结构,四角号码排序结构,拼音排序结构等;眼下,作为音码排序结构的拼音排序设计法,并非名实相符的拼音排序设计法,而是一种多因素设计法。该设计结构下,一个词条中的各字的查找虽然均仰赖于拼音,但却不是仅仅依赖于拼音。例如,最流行的汉语词库----″现代汉语词典″(中国社会科学院语言研究所词典编缉室编,商务印书馆出版,1979,北京。)中的词序,就是这种设计方式的代表。这种词库,就不是依赖拼音一个因素能前后贯通的词库。而且,在这种词库的设计里,拼音的作用不是为词条本身排序,而是逐个为词条中的字排序,这一特点耐人寻味。----用这种办法,排库或检索时,人们首先找词条的第一个汉字所在的位置,接着找该词条第二个汉字的位置,…;可见,该库的设计中心是汉字而不是词条本身。于是,找寻汉字的方法和过程,就成了检验这种设计方法是否名实相符,并衡量其效率高低和应用前景的焦点。
这种汉字库结构的忧点和缺点都十分突出,而缺点则是致命的:它使中文文献库无法与国际文献库接轨;而检索效率特低。由于汉字的同拼字并不唯一而且很多,使得这种使用拼音的查找法每次所找到的,一般不可能是待查词条中的那个待查的汉字,而是与该字同拼的汉字群。为了为具体的汉字定位而采用的其它标识方法,如汉字四声法,与拼音法别成体系,而打乱了单用拼音作为排序设计依据的词库的严谨性。这样以来,在该设计结构下,同一词条的各个字的拼音各有其位,而不能合为一个有序的队列----合在一起时,将是形式上有序,实际上杂乱的排列。例如,依英语字母序,″CHAOYANGHU A″应该排在″CHAOZHONG″之前,但在″现代汉语词典″里,词汇″超重″被排在词汇″朝阳花″之前,而这两个汉语词汇的拼音正是″CHAOZHONG″和″CHAOYANGHUA″!这种混乱在中文词库文献里比比皆是。如″中国成语大辞典″(上海辞书出版社,1987版。)中,词条″礼贤下士″(LI XIAN XIA SHI)被排在词条″里程碑″{LI CHENG BEI)之前;高等学府数据库中,词条″山西师范大学″(SHANXI SHIFAN DAXUE)被排在词条″陕西机械学院(SHANXI JIXIE XUEYUAN)前;等等。这些排法,虽然有其原则而不能说错,可正是这种混乱使得中文文献库无法与国际文献库接轨。另一方面,这种多因素结构又使中文词汇的检索非常沉重。例如,,为了查询词汇″异彩″,从″现代汉语词典″的第1336页就得留意,而以″异″为首字的词汇在第1359页,差约23页;事实上,以″YI″为其首字拼音的汉语词汇,在该词典中有24页。由于汉字只有约400个拼音类型,分别为A,AI,....,BA,BAI,...,ZUI,ZUN,ZUO,平均而言,每类约有1/400的词库词量。自然,对一部1500页的词典来说,用拼音查一词平均就可能得查3.75页,多时达到三,五十页。对一个照搬这种词库结构的拥有六万词汇的计算机拼音输入方法来说,相应于每个拼音的搜索量,平均为150个词条,多时可达一千条,也够可观了!不巧的是,常用词大量地分布在这种所占篇幅大的拼音块里,从而使这种词库结构下的检索效率显得更低。为了提高对汉字的识别能力,很多专家采取了码上加码的作法,如拼音加笔划,拚音加部首的作法等,效果不错。这种作法的势头似乎正盛。可是,就中文词库而言,只要采用多因素设计法,或者,说得更严格一些,只要不采用单一因素作为设计中文词库的依据,所成词库就无法与国际文献库接轨,检索速度及方便程度就会受限。这是多因素中文词库设计法的一个不能自拔的泥潭困境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王本善,未经王本善许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/96117645.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:芒硝循环法富集高镁苦卤中锂盐的工艺方法
- 下一篇:新型立体视觉图象技术及装置





