[发明专利]一种分布式文档转码系统无效
申请号: | 201310002550.2 | 申请日: | 2013-01-06 |
公开(公告)号: | CN103092932A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 潘旻琦;刘理博 | 申请(专利权)人: | 潘旻琦;刘理博 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 文档 系统 | ||
技术领域
本发明涉及分布式转码和任务调度技术,属于多格式数字文档处理领域。
背景技术
随着办公电子化的发展,文档在线阅读、在线文档分享已经逐渐成为在线办公的必不可少的服务和技术。文档转码使得不同格式的电子文档能够在网页、不同移动设备上显示、阅读,目前传统的解决方案是使用Flash作为播放器,如常见的百度文库、豆丁以及道客巴巴,用户可以将自己的各种格式的电子文档上传到服务器,服务器通过转码及转存,转变成Flash播放器可以识别的格式。但是Flash是以第三方插件,导致在载入速度慢、兼容性差。有些直接使用Linux下的开源转码器导致很大一部分转码结果失真。
传统的转码任务都是由专门的任务调度服务器来调度、分配和管理,在待转码任务繁多而且转码服务器群有限的情况下,任务调度会导致大量的系统资源浪费,同时转码服务器自身状态变化也会对系统资源利用率大大降低。
发明内容
为解决上述技术问题,本发明公开了一种分布式实时文档转码系统,能够将各类文档转码为所有设备兼容的图片格式。
在所述文档转码系统中,包括公共服务器、任务队列服务器、转码服务器群,
所述公共服务接收上传数据,并且为每个文件提供一个加密的下载地址。
所述任务队列服务器生成一个全局的任务编号,并将文档下载地址和其他相关任务参数作为值存入内存中的消息队列。同时为所有的转码服务器提供一个端口用于接收任务参数。其中任务参数包括文档或者转码中间产物的下载地址、任务的种类和不同任务种类可能需要的其他参数,其中任务种类包括任务类型和任务优先级。
所述消息队列分为不同的优先级,优先级不同的任务到达不同优先级的消息队列排队,等待执行。
为保证转码的质量,转码服务器群分为两类,一类为Linux服务器群,另一类为Windows服务器群。
所述Linux服务器负责解压压缩文件,以及将PDF(或Djvu)文件转码成图片格式。
所述Windows服务器负责将常见的doc、docx、ppt、pptx、pps、ppsx等电子文档格式转码成PDF文件;以及将生成的PDF文件传至公共服务器,同时向任务队列服务器的特定的端口发送建立PDF转码任务的参数,根据需要进入不同优先级的转码队列。
本发明还公布了一种任务调度方法,以便更加充分的利用系统资源,尤其在任务数量远远大于转码服务器时,需要尽可能的提高处理效率,所述任务调度方法包括任务队列服务器的多优先级消息队列、任务队列服务器启动信号、转码服务器请求信号、转码服务器自适应、多次重试的策略,来处理所有的任务。
所述任务队列服务器启动信号为向空闲状态停止监听的转码服务群发送的启动信号,即向转码服务群某个端口发送认证秘钥,来启动停止请求任务的转码服务群。
所述转码服务器请求信号,即收到启动信号时,每隔一段时间请求一次任务,在空闲时自动停止请求,并监听任务队列服务器的启动信号。
所述转码服务器自适应,是指本发明只需要每台转码服务器各自计算各自的运行状态,并依据自己的剩余系统资源的多少来决定请求任务的种类和数量。
所述多次重试策略,是指本发明在试图将所有的功能专有化的同时,并没有保证数据传递的可靠性,因此任务队列服务器会记录分配出去的任务的执行时间和其反馈的状态,根据超时时间、反馈状态及任务错误信息决定是否重试,每次重试时,超时时间会加长。达到一定重试次数后不再重试,将该任务列为失败任务。
附图说明
图1是本发明Linux转码服务器处理PDF文件的过程的流程图
图2是本发明整个分布式转码系统的组成及其基本任务数据流,用于表述任务调度系统方法的一个示意性实例
具体实施方式
本发明所述转码是将复杂文档格式到统一兼容性图片格式的一种转换,同时保证无失真的转码结果。例如PDF文件,转码过程就是将PDF格式的文件提取出每页的数据来,然后将每一页的数据写入图片文件(下面以JPG图片文件为例),得到需要的文件;对于Word及PowerPoint文件,考虑到现有开源转码器的对这种文件编码格式识别结果太过于粗糙,影响阅读,所以本发明采取直接利用Windows自身的优势,使用微软公司对自己文档格式的优秀的识别能力,将这种文件无失真的转存为PDF文件,再进行PDF转码。
所述无失真的含义是指输入文件和输出文件的内容、版式无区别。所指输入文件的内容版式以原作者想表述的内容为准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于潘旻琦;刘理博,未经潘旻琦;刘理博许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310002550.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:压缩空气切壁喷射装置
- 下一篇:异型静电净化器