[发明专利]一种文档解析方法及装置在审
申请号: | 202110674264.5 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113435178A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 简仁贤;郑长钦 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/154;G06F40/14 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 解析 方法 装置 | ||
1.一种文档解析方法,其特征在于,包括:
导入文档;
对导入的文档进行解析,并在解析结果中保留文档的富文本格式;
将解析结果保存。
2.根据权利要求1所述的文档解析方法,其特征在于,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,包括:
当所述文档为Word时,将Word文档解析成XHTML格式的内容,删除预设的无用标签;
将XHTML格式的内容转化为HTML格式的内容,并保留文档的富文本格式。
3.根据权利要求1所述的文档解析方法,其特征在于,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,包括:
当所述文档为PDF时,将PDF文档解析成HTML格式的内容,并保留文档的富文本格式。
4.根据权利要求2或3所述的文档解析方法,其特征在于,所述对导入的文档进行解析,并在解析结果中保留文档的富文本格式,还包括:
将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件;
将所述图片和字体的内容替换为所述文件的链接,并将链接存放在HTML格式的内容中。
5.根据权利要求4所述的文档解析方法,其特征在于,所述方法还包括:
删除HTML格式的内容中的HTML标签,形成纯文本格式的内容。
6.根据权利要求5所述的文档解析方法,其特征在于,所述方法还包括:
对纯文本格式的内容进行分词操作,获得分词结果;
将纯文本格式的内容和分词结果存储到搜索引擎数据库。
7.根据权利要求3所述的文档解析方法,其特征在于,所述无用标签包括:name属性值为_GoBack的title标签、name属性值为_GoBack的a标签以及满足正则表达式_Toc(.*)匹配规则的标签。
8.根据权利要求4所述的文档解析方法,其特征在于,将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件,包括:
将所述HTML格式中内容包含的图片或者字体由原来解析出的字符串通过解码写入到字节数组,并通过字节数组转化为字节流,写入到对象存储服务的文件存储路径中保存为文件;
所述的文件存储路径为所述文件的链接,通过固定规则生成。
9.根据权利要求8所述的文档解析方法,其特征在于,所述固定规则是:固定id+/+随机数+时间戳+/+文件名称。
10.一种文档解析装置,其特征在于,包括:
文档导入单元,用于导入文档;
文档解析单元,用于对导入的文档进行解析,并保留文档的富文本格式;
第一存储单元,用于将解析结果保存。
纯文本转化单元,用于将HTML格式的内容转化为去除HTML标签后的纯文本内容;
分词单元,用于将纯文本内容进行分词操作,获得分词结果;
第二存储单元,用于将纯文本内容和分词结果存储到搜索引擎数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110674264.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种万向轴式加速度过载开关
- 下一篇:掘进机电机设备的预测性控制方法及装置