[发明专利]文档解析方法、系统及装置在审

申请号：	202111424953.7	申请日：	2021-11-26
公开（公告）号：	CN114090776A	公开（公告）日：	2022-02-25
发明（设计）人：	毛璐;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F8/41
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	何定润
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档解析方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文档解析方法、系统及装置，其中所述文档解析方法包括：获取目标文档，并提取所述目标文档包含的至少一个文本信息；对所述至少一个文本信息进行文本分类，获得每个文本信息的文本类别；根据所述文本类别对所述至少一个文本信息进行信息抽取，获得所述目标文档中包含的关键信息。提升了对目标文档中关键信息提取的准确性。

技术领域

本申请涉及数据处理技术领域，特别涉及文档解析方法、系统及装置、计算设备和计算机可读存储介质。

背景技术

随着信息技术的发展，文档类型越来越多样化。而对不同文档类型的文档中包含的信息类型(比如文字或图像等)是有所差别的。此外，这些文档中存储信息的方式也可能是多种多样的，比如可以通过表格进行信息存储，或直接通过纯文本进行信息存储等。现有的文档解析方法更多是基于纯文本的信息解析，对于PDF等图像类型的文档或包含表格等特殊元素的文档而言，解析出的关键信息可能不完整、不准确。

发明内容

有鉴于此，本申请实施例提供了一种文档解析方法、系统及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种文档解析方法，包括：

获取目标文档，并提取所述目标文档包含的至少一个文本信息；

对所述至少一个文本信息进行文本分类，获得每个文本信息的文本类别；

根据所述文本类别对所述至少一个文本信息进行信息抽取，获得所述目标文档中包含的关键信息。

可选地，所述提取所述目标文档包含的至少一个文本信息，包括：

确定所述目标文档的文档类型；

根据所述文档类型对所述目标文档进行信息提取，获得至少一个文本信息。

可选地，所述根据所述文档类型对所述目标文档进行信息提取，获得至少一个文本信息，包括：

在所述文档类型为文本类型的情况下，对所述目标文档进行文本提取，获得目标文本；

将所述目标文本进行分句处理，生成语句序列；