[发明专利]多语文档分离的方法和系统有效
申请号: | 201010285962.8 | 申请日: | 2010-09-19 |
公开(公告)号: | CN101996164A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 赵国伟 | 申请(专利权)人: | 传神联合(北京)信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100086 北京市海淀区青云里满庭*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语文 分离 方法 系统 | ||
技术领域
本发明涉及数据处理领域,尤其涉及一种多语文档分离技术。
背景技术
在日常文档处理过程中,通常会遇到一个文档中同时存在多语种内容,如在一个文档中同时存在中文、英文和日文。如果需要将这种多语种文档中的不同语种分开,目前都是通过人工一点点进行操作,非常浪费人力资源和时间。
发明内容
本发明的目的是提供一种多语文档分离的方法和系统,该发明不仅可以将多语种文档中的不同语种语言按照语种类别分离开,而且操作简单,大大节省了人力资源和时间。
本发明的目的是通过以下技术方案实现的:
本发明提供一种多语文档分离的方法,其包括:
对文档字符进行扫描;
根据字符属性信息为当前扫描字符确定语种标识;
将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;
根据所述存放指针,将当前句写入到与该语种标识对应的文件中。
其中,更优选的,所述根据字符属性信息为当前扫描字符确定语种标识的过程包括:
提取当前扫描字符的字符属性信息;
根据预设的字符属性信息与语种标识之间的映射关系,为当前扫描字符分配相应的语种标识。
其中,更优选的,所述多语文档分离的方法还包括:
判断文档中的字符是否全部被扫描,若是,则结束扫描过程;否则,继续扫描。
其中,更优选的,在根据字符属性信息为当前扫描字符确定语种标识的过程之前,还包括:
获取用户选择的需分离语种标识;
获取用户选择的文档的链接地址;
获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
其中,更优选的,所述多语文档分离的方法还包括:
根据授权的用户身份标识库,对登录用户的身份进行验证。
本发明还提供一种多语文档分离的系统,其包括:
扫描单元,用于对文档字符进行扫描;
语种确定单元,用于根据字符属性信息为当前扫描字符确定语种标识;
语句定位单元,用于将所述语种确定单元所确定的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符,将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;
语种分离单元,用于根据所述语句定位单元确定的存放指针,将当前句写入到与该语种标识对应的文件中。
其中,更优选的,所述多语文档分离的系统还包括:
文档扫描控制单元,用于判断文档中的字符是否全部被扫描,若是,则通知所述扫描单元结束扫描;否则,不操作。
其中,更优选的,所述多语文档分离的系统还包括:
信息获取单元,用于获取用户选择的需分离语种标识,以及获取用户选择的文档的链接地址;
指令获取单元,用于获取用户的开始指令,并根据所述文档的链接地址打开对应的文档。
其中,更优选的,所述多语文档分离的系统还包括:
人机交互界面,所述交互界面设置有:
用户添加按钮,用于添加用户所选择的需分离语种标识,以及添加用户所选择的文档的链接地址;
指令操作按钮,用于用户发送指令。
其中,更优选的,所述多语文档分离的系统还包括:
登录单元,用于获取用户的登录信息,并根据所述登录信息发送身份验证请求给服务器,并当服务器通过验证后,允许所述用户登录所述人机交互界面。
由上述本发明提供的技术方案可以看出,本发明通过提取与需分离语种标识相同的字符所在的语句,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。
附图说明
图1为本发明第一实施例中提供的多语文档分离的方法的流程图;
图2为本发明第二实施例中提供的多语文档分离的系统的结构原理图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
本发明第一实施例提供了一种多语文档分离的方法,在实施该方法之前,需要在服务器数据库中保存被授权用户身份标识信息,在客户端设置字符属性信息与语种标识之间的映射关系。以及,完成如下系统登录和获取用户添加的需分离语种标识和需分离文档的链接地址的过程:
一、系统登录
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神联合(北京)信息技术有限公司,未经传神联合(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010285962.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种上行控制信令的传输方法及终端、基站
- 下一篇:水煤浆的制备方法