[发明专利]一种文档解析方法及装置在审

申请号：	202110674264.5	申请日：	2021-06-17
公开（公告）号：	CN113435178A	公开（公告）日：	2021-09-24
发明（设计）人：	简仁贤;郑长钦	申请（专利权）人：	竹间智能科技（上海）有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/289;G06F40/154;G06F40/14
代理公司：	上海湾谷知识产权代理事务所(普通合伙) 31289	代理人：	倪继祖
地址：	200030 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档解析方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文档解析方法及装置，方法包括：导入文档；对导入的文档进行解析，解析结果中保留文档的富文本格式；将解析结果保存。本发明对各类格式的文档进行智能解析，保留原有的富文本格式，可进行在线预览和增量编辑操作，并且关联实现了导入内容被存储进了搜索引擎数据库，供后续智能知识库的搜索。

技术领域

本发明涉及智能知识库技术领域，尤其涉及文档解析方法和装置。

背景技术

智能知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对一个或一些领域问题求解的需要，采用某种或多种知识表示方式在计算机存储装置中存储、组织、管理和使用的互相联系的知识片集合。是基于知识且具有智能性的系统，其由人工智能(AI)和数据库(DB)两项计算机技术的有机结合而促成和发展。

在智能知识库管理和采编过程中，企业中存在的知识信息有多种文件格式存在，例如Word(微软公司的一个文字处理器应用程序)、PDF(可携带文档格式)格式等，不同的文档格式又有不同的软件和使用方式，各文档格式无法兼容，因此对于这些文档，使用者也就无法统一地浏览或编辑。

目前智能知识库管理和采编过程中，一般采用的方式为：将既存文档中文本选择复制、粘贴到编辑器中。首先，假设所有文档格式的软件是否都有复制功能(即：假设不存在功能上的限制)，例如Word和PDF软件里都提供了选中文本并进行复制的功能，但是对于企业里既存的大量文档都手工进行打开、全选、复制、再粘贴到目标编辑器中，必然会浪费大量人工，同时效率很低。

另外，上述编辑保存的知识内容在需要时，要能够方便地被智能知识库搜索到，目前也无法实现。

发明内容

本发明的目的在于提供文档解析方法及装置，兼容不同文档格式，方便使用者进行在线预览和增量编辑操作。

实现上述目的的技术方案是：

本申请提供一种文档解析方法，包括：

导入文档；

对导入的文档进行解析，并在解析结果中保留文档的富文本格式；

将解析结果保存。

在一实施例中，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,包括：

当所述文档为Word时，将Word文档解析成XHTML(可扩展超文本标记语言)格式的内容，删除预设的无用标签；

将XHTML格式的内容转化为HTML(一种网页标记语言，用来描述网站页面)格式的内容，并保留文档的富文本格式。

在一实施例中，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,包括：