[发明专利]一种基于维吾尔文音节的可检索式压缩和解压方法有效

申请号：	201910529448.5	申请日：	2019-06-19
公开（公告）号：	CN110263339B	公开（公告）日：	2022-12-30
发明（设计）人：	瓦依提·阿不力孜;加米拉·吾守尔	申请（专利权）人：	新疆大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/242;G06F40/216;G06F16/174;G06F16/335
代理公司：	北京中政联科专利代理事务所(普通合伙) 11489	代理人：	郑义
地址：	830046 新疆维***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于维吾尔文音节检索压缩解压方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于维吾尔文音节的可检索式压缩和解压方法，包括压缩过程和解压过程；解压过程包括以下步骤：S1:打开压缩包，读取编码序列；S2：当遇到音节编码X字符时，将音节编码X转换成对应的维文；维文中出现的ASCII码看成一个维文音节；S2:当遇到字符串Mark_S时，将Mark_S和Mark_E中间的字符串Y直接提出进行使用；S3：对S2和S3中，解码的内容进行编辑，获取原文，以完成解压过程。本发明中，实现对维文的压缩和解压，使用方便，效率高。同时，本发明具有很好的压缩比率，提高压缩与解压效率，实现无解压状态下内容检索，提高检索效率。

技术领域

本发明涉及维吾尔语电子语料库建设领域，尤其涉及一种基于维吾尔文音节的可检索式压缩和解压方法。

背景技术

目前为止还没有发现根据维吾尔文词法结构特点的无解压可检索式文本压缩方法、专利。维吾尔文电子文本(各种数据库，语料库，网站，各种文档)一般采用Unicode编码格式存储，这些文档、数据库内容通过压缩工具压缩后，如果需要检索则先进行解压。

但是，传统检索方法中有些词语的检索结果包含与关键词语义上无关的内容，要排除则需要对检索结果进行语义分析才行，并且维吾尔文词语根据后续词缀的特点有时出现音节结构发生变化现象，这种现象导致检索失败。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于维吾尔文音节的可检索式压缩和解压方法，实现对维文的压缩、解压和无解压状态下内容检索，使用方便，效率高。同时，本发明具有很好的压缩比率。

(二)技术方案

为解决上述问题，本发明提供了一种基于维吾尔文音节的可检索式压缩和解压方法，包括压缩过程和解压过程；

压缩过程包括以下步骤：

S1：对维文进行分词；