[发明专利]一种文档解析方法及装置在审
申请号: | 202110674264.5 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113435178A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 简仁贤;郑长钦 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/154;G06F40/14 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 解析 方法 装置 | ||
本发明公开了一种文档解析方法及装置,方法包括:导入文档;对导入的文档进行解析,解析结果中保留文档的富文本格式;将解析结果保存。本发明对各类格式的文档进行智能解析,保留原有的富文本格式,可进行在线预览和增量编辑操作,并且关联实现了导入内容被存储进了搜索引擎数据库,供后续智能知识库的搜索。
技术领域
本发明涉及智能知识库技术领域,尤其涉及文档解析方法和装置。
背景技术
智能知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对一个或一些领域问题求解的需要,采用某种或多种知识表示方式在计算机存储装置中存储、组织、管理和使用的互相联系的知识片集合。是基于知识且具有智能性的系统,其由人工智能(AI)和数据库(DB)两项计算机技术的有机结合而促成和发展。
在智能知识库管理和采编过程中,企业中存在的知识信息有多种文件格式存在,例如Word(微软公司的一个文字处理器应用程序)、PDF(可携带文档格式)格式等,不同的文档格式又有不同的软件和使用方式,各文档格式无法兼容,因此对于这些文档,使用者也就无法统一地浏览或编辑。
目前智能知识库管理和采编过程中,一般采用的方式为:将既存文档中文本选择复制、粘贴到编辑器中。首先,假设所有文档格式的软件是否都有复制功能(即:假设不存在功能上的限制),例如Word和PDF软件里都提供了选中文本并进行复制的功能,但是对于企业里既存的大量文档都手工进行打开、全选、复制、再粘贴到目标编辑器中,必然会浪费大量人工,同时效率很低。
另外,上述编辑保存的知识内容在需要时,要能够方便地被智能知识库搜索到,目前也无法实现。
发明内容
本发明的目的在于提供文档解析方法及装置,兼容不同文档格式,方便使用者进行在线预览和增量编辑操作。
实现上述目的的技术方案是:
本申请提供一种文档解析方法,包括:
导入文档;
对导入的文档进行解析,并在解析结果中保留文档的富文本格式;
将解析结果保存。
在一实施例中,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,包括:
当所述文档为Word时,将Word文档解析成XHTML(可扩展超文本标记语言)格式的内容,删除预设的无用标签;
将XHTML格式的内容转化为HTML(一种网页标记语言,用来描述网站页面)格式的内容,并保留文档的富文本格式。
在一实施例中,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,包括:
当所述文档为PDF时,将PDF文档解析成HTML格式的内容,并保留文档的富文本格式。
在一实施例中,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,还包括:
将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件;
将所述图片和字体的内容替换为所述文件的链接,并将链接存放在HTML格式的内容中。
在一实施例中,所述方法还包括:
删除HTML格式的内容中的HTML标签,形成纯文本格式的内容。
在一实施例中,所述方法还包括:
对纯文本格式的内容进行分词操作,获得分词结果;
将纯文本格式的内容和分词结果存储到搜索引擎数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110674264.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种万向轴式加速度过载开关
- 下一篇:掘进机电机设备的预测性控制方法及装置