[发明专利]一种格式化输出书版小样文件内容的方法及系统有效
| 申请号: | 200910242834.2 | 申请日: | 2009-12-17 |
| 公开(公告)号: | CN102103574A | 公开(公告)日: | 2011-06-22 |
| 发明(设计)人: | 严昌华;缪萍 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/25 |
| 代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
| 地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 格式化 输出 小样 文件 内容 方法 系统 | ||
技术领域
本发明涉及内容输出技术领域,具体而言,涉及一种格式化输出书版小样文件内容的方法及系统。
背景技术
现有技术中,书版小样文件通常是借助于书版程序的排版引擎,并按照书版小样中定义的规范而输出到诸如显示器、打印机或印刷机等输出设备。其中,书版小样文件中包含各类特殊的格式内容,目前能够将这样的书版小样文件内的格式化内容按照原始意义正确呈现的方式,只有通过书版的排版引擎。
然而,随着技术的进步,对于书版小样文件内容的其他形式的输出要求越来越强烈,例如,目前就迫切需要以书籍方式输出或者以数据库的形式输出书版小样内容。但是,现有技术中还没有一种行之有效的方法能够完好地解析书版小样文件(特别是其所包含的诸如公式、分数式、上/下标、多行图说内容等的特殊格式信息),因而使得即便得到了书版内容,也因没有一种合理的处理流程来将得到的内容进行有效组织,而使得不能在后端正确呈现该书版小样内容。换言之,目前还没有能够对书版小样文件进行良好解析、合理组织并便于在后端正确呈现的方法。
发明内容
为解决上述技术问题,本发明提供了一种格式化输出书版小样文件内容的方法及系统,其能够对书版小样文件进行良好解析、合理组织,从而可在后端输出中提供一种结构化的输出方式,进而完成书版小样文件内容的格式化输出效果。
为此,本发明提供了一种格式化输出书版小样文件内容的方法,包括下述步骤:1)读取书版小样文件内容,并基于所读取的书版小样文件内容而构建逻辑树结构;2)基于逻辑树结构而构建标签树结构;3)基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
其中,在所述步骤1)中,提取书版小样文件内容,并按照段落组织构建逻辑树结构,所述逻辑树结构包括段落正文内容和与正文内容有关的格式信息。
其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
其中,在所述步骤2)中,根据需要输出的内容,按照匹配规则自动或者手动提取相关信息,以便对逻辑树结构中的相关信息进行处理而生成有关所述输出内容的标签树结构。
其中,在所述标签树结构中,普通文字内容可以直接从逻辑树结构中获得,而对于无法按普通文字组织的特殊格式信息,则在提取的文字内容上下文关系中用特殊格式助记符表示,并且每一个特殊助记符对应逻辑树结构上相应段落内的特殊格式片断记录。
其中,在所述步骤3)中,若遇到普通文字内容,则直接输出该普通文字内容以构成后端输出所需要的格式化文档。若遇到由特殊格式助记符标示的内容,则根据该助记符在相应段落的位置到逻辑树结构中查找相应的特殊格式片断,并且对后端输出引擎可以处理的特殊格式片断,提取和组织具体格式信息,以在后端输出引擎中按照结构化的内容进行格式化输出;对后端输出引擎无法处理的特殊格式片断,根据特殊格式片断记录中所提取的信息构建合法的书版小样片断,利用书版的发排引擎将其输出为图片文件,以在后端输出引擎中的相应部位插入该图片文件。
其中,所述步骤3)具体包括下述步骤:31)在标签树结构中读取格式分块。32)判断所读取的格式分块是否为普通文字,若是,则直接输出该文字内容;若否,则转到步骤33)。33)检索逻辑树结构,以找到该格式分块所对应的位置。34)判断相应位置的格式片断是否可以解析,若是,则转到步骤35;若否,则转到步骤36)。35)判断所述格式片断中的格式信息是否为特定格式信息,若是,则以该特定格式输出相应内容;若否,则输出占位符。36)将所述格式片断作为书版小样片断提取出来,并将所提取的书版小样片断生成图片。37)输出步骤36)中所生成的图片。重复上述步骤31)至步骤37),直至标签树结构中的全部内容输出完毕。
其中,所述特殊格式信息包括但不限于数学公式和/或分数式和/或上下标和/或补字处理格式信息和/或多行图说内容格式信息。
此外,本发明提供一种格式化输出书版小样文件内容的系统,包括下述单元:书版小样读取单元,用于读取书版小样文件内容;逻辑树结构构建单元,用于基于所读取的书版小样文件内容而构建逻辑树结构;标签树结构构建单元,用于基于逻辑树结构而构建标签树结构;以及格式化及输出单元,用于基于标签树结构和逻辑树结构而形成后端输出所需要的格式化文档,并根据需要输出所述格式化文档。
其中,在所述逻辑树结构中,每一段落可划分为若干格式片断,其中的每一格式片断包含相应的具体格式信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910242834.2/2.html,转载请声明来源钻瓜专利网。





