[发明专利]用于对文本进行处理的方法和系统有效
| 申请号: | 200910136952.5 | 申请日: | 2009-04-30 |
| 公开(公告)号: | CN101876965A | 公开(公告)日: | 2010-11-03 |
| 发明(设计)人: | 左志波;李彬;沙志强;庞丽群 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;李辉 |
| 地址: | 美国纽*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 文本 进行 处理 方法 系统 | ||
技术领域
本发明涉及信息处理技术,尤其涉及用于对文本进行处理的方法和系统。
背景技术
在过去的二十多年的时间里,随着电子技术的迅猛发展,计算机网络,尤其是互联网的性能和容量发生了爆炸性的增长。用户每天利用计算机处理各种信息,编辑形成大量的电子文本。这些电子文本(下文简称为文本)包括以文档方式存储的文本以及以记录和表格等方式存储在数据库中的文本。这些文本中的信息是个人或企业的重要资产。以文档或记录等电子化的方式存储和处理这些文本,为用户重复利用其中的信息提供了便利并提高了工作效率。
但是,在一些情况下,文本可能会被损坏(例如,文本文档被损坏),从而影响对文本中信息的重复利用。这浪费了为形成文本而投入的时间等资源。造成文本被损坏的原因有多种,例如通信故障、存储介质故障等。操作系统故障、处理文档的应用程序中的缺陷,也会损坏文档。文档损坏是一种可以尽量减少,但是却很难完全避免的问题。
当文档被损坏后,用户经常希望可以从该文档中找回未被损坏的部分,而不必重新编辑全部文档内容。对于文字处理类型的文档,文本往往是其中比较重要的内容,而格式和其它非文本信息往往相对不重要。因此,恢复文档中的文本比较重要。文本在文档中,一般根据预定的字符集以字符编码的方式存储。
字符集指特定字符的集合,分为单字符集(即单字节编码字符集)和多字符集(双字节或多字节编码字符集)。单字符集主要包括ASCII,Latin-1等编码字符集,主要用于英文等字母语言。多字符集主要包括GB2312,GBK,GB18030,Shit-JIS,ISO2022等编码字符集,主要用于中文、日文和韩国文等。微软的视窗操作系统,其核心用UTF-16编码,为双字节编码,外层应用可以随着使用语言设置(locale)的不同而不同。比如中文Windows,就可以用GB2312编码或者GB18030编码。
用于存储信息的数据库也可以使用不同的编码。数据库系统软件安装时可以设定一个默认编码,但是在建不同的数据库时可以指定成用户需要的编码。安装数据库系统软件后,如建了两个数据库,一个用于处理员工信息,一个用于处理机器设备信息。员工信息可以用GB2312编码或UTF-16编码以便支持中文,或者使用Shit-JIS编码以便支持日文。机器设备信息可以使用ASCII编码,因为机器设备名称、IP地址等信息都是ASCII编码的。
文本损坏的一个重要原因是字节丢失。放在硬盘、优盘等存储设备上的文档。受到震动、复杂环境等不可预知的因素的影响,可能会导致文档的某些字节损坏而造成丢失字节。
数据库之间的文档复制,尤其是采用不同编码的数据库之间进行文档复制,也可能造成字节丢失。例如,如果复制的缓存发生数据溢出,就会发生字节丢失。一个跨国公司的多个协作服务器,由于需要支持不同国家中的英文、中文、日文和韩国文用户,其中的文本采用单字节编码和双字节或多字节编码。在这种协作服务器系统之间同步或备份时,如果方法不当,发生溢出,可能会丢失字节。例如,一种使用多字节编码的数据库,每个字符的编码字节数为1至3个。在拷贝一串字符时,使用了一个512个字节的缓冲区。当存满这个缓冲区时,由于程序设计问题或内存分配问题,最后一个字符可能没有复制完整,即丢失了字节。比如:“ABC中国”这几个字,如果ABC各使用单字节编码,占用3个字节,中国两个字采用三字节编码,分别需要占用三个字节。如果将上述编码的“ABC中国”存到一个最后的8字节空间里,会导致最后一个字的最后一个字节丢失。
不同文档格式或数据格式进行格式转换,尤其是不同编码的系统或应用之间对包括文本的内容进行格式转换,也可能发生丢失字节。
由于软硬件技术的发展,以及多年使用计算机处理各种信息,一些企业用户可能积累了多种不同的文档,这些文档基于不同的软硬件系统。由于需要处理的情况复杂,在重复利用这些积累的文档的过程中,文本中丢失字节的现象时有发生。
因此,有必要针对上述不同的情况,采取必要的技术处理措施,以便尽可能恢复受到损坏的文本。并且,需要一种机制,来检测涉及文本的处理,对该文本是否安全。
发明内容
鉴于已有技术的不足,本发明提供了一种对文本进行处理的方法,包括:确定一文本中的至少部分字符;利用所述至少部分字符作为分隔符,将所述文本划分为多个文本片段;以及对所述多个文本片段分别进行译码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910136952.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种合并报表方法和装置
- 下一篇:一种总线外扩抗干扰加密的方法





