[发明专利]一种基于维吾尔文音节的可检索式压缩和解压方法有效
| 申请号: | 201910529448.5 | 申请日: | 2019-06-19 |
| 公开(公告)号: | CN110263339B | 公开(公告)日: | 2022-12-30 |
| 发明(设计)人: | 瓦依提·阿不力孜;加米拉·吾守尔 | 申请(专利权)人: | 新疆大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/216;G06F16/174;G06F16/335 |
| 代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 郑义 |
| 地址: | 830046 新疆维*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 维吾尔文 音节 检索 压缩 解压 方法 | ||
一种基于维吾尔文音节的可检索式压缩和解压方法,包括压缩过程和解压过程;解压过程包括以下步骤:S1:打开压缩包,读取编码序列;S2:当遇到音节编码X字符时,将音节编码X转换成对应的维文;维文中出现的ASCII码看成一个维文音节;S2:当遇到字符串Mark_S时,将Mark_S和Mark_E中间的字符串Y直接提出进行使用;S3:对S2和S3中,解码的内容进行编辑,获取原文,以完成解压过程。本发明中,实现对维文的压缩和解压,使用方便,效率高。同时,本发明具有很好的压缩比率,提高压缩与解压效率,实现无解压状态下内容检索,提高检索效率。
技术领域
本发明涉及维吾尔语电子语料库建设领域,尤其涉及一种基于维吾尔文音节的可检索式压缩和解压方法。
背景技术
目前为止还没有发现根据维吾尔文词法结构特点的无解压可检索式文本压缩方法、专利。维吾尔文电子文本(各种数据库,语料库,网站,各种文档)一般采用Unicode编码格式存储,这些文档、数据库内容通过压缩工具压缩后,如果需要检索则先进行解压。
但是,传统检索方法中有些词语的检索结果包含与关键词语义上无关的内容,要排除则需要对检索结果进行语义分析才行,并且维吾尔文词语根据后续词缀的特点有时出现音节结构发生变化现象,这种现象导致检索失败。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于维吾尔文音节的可检索式压缩和解压方法,实现对维文的压缩、解压和无解压状态下内容检索,使用方便,效率高。同时,本发明具有很好的压缩比率。
(二)技术方案
为解决上述问题,本发明提供了一种基于维吾尔文音节的可检索式压缩和解压方法,包括压缩过程和解压过程;
压缩过程包括以下步骤:
S1:对维文进行分词;
S2:每一个维文词语进行音节切分,非维文部分不变;其中,ASCII码前128个字符分别对应维文的128个音节;
S3:开始编码;
S4:将维文的每个音节获取对应的音节编码X;
S5:在非维文和非ASCII范围的字符串Y的前、后加上识别标志字符串;识别标志字符串分别为:Mark_S和Mark_E;其中,字符串Mark_S和字符串Mark_E分别作为开始字符串和结束标志字符串;非维文编码格式为:“Mark_S字符串Y Mark_E”,以将字符串Y看作为一个符号;
S6:获取所有维文编码序列,进行压缩,得到压缩包;
解压过程包括以下步骤:
S1:打开压缩包,读取编码序列;
S2:当遇到音节编码X字符时,将音节编码X转换成对应的维文;
S2:当遇到字符串Mark_S时,将Mark_S和Mark_E中间的字符串Y直接提出进行使用;
S3:对S2和S3中,解码的内容进行编辑,获取原文,以完成解压过程。
优选的,包括无解压检索方法,其具体包括以下步骤:
S21:在语料库基础上,统计出维吾尔文音节种类和出现频率;
S22:通过统计数据基础上设计一个基于音节的编码词典;其中,每一种编码长度与一个Unicode字符编码长度一样,均为2个字节,即,16bit长度;
S23:编码词典使用码值固定的、等长音节编码,其内容、接口为开放式的;
S24:在检索过程中,通过对照编码词典对未解压文件中的内容进行检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910529448.5/2.html,转载请声明来源钻瓜专利网。





