[发明专利]文档解析方法、系统及装置在审
申请号: | 202111424953.7 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114090776A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 毛璐;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F8/41 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 解析 方法 系统 装置 | ||
本申请提供一种文档解析方法、系统及装置,其中所述文档解析方法包括:获取目标文档,并提取所述目标文档包含的至少一个文本信息;对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别;根据所述文本类别对所述至少一个文本信息进行信息抽取,获得所述目标文档中包含的关键信息。提升了对目标文档中关键信息提取的准确性。
技术领域
本申请涉及数据处理技术领域,特别涉及文档解析方法、系统及装置、计算设备和计算机可读存储介质。
背景技术
随着信息技术的发展,文档类型越来越多样化。而对不同文档类型的文档中包含的信息类型(比如文字或图像等)是有所差别的。此外,这些文档中存储信息的方式也可能是多种多样的,比如可以通过表格进行信息存储,或直接通过纯文本进行信息存储等。现有的文档解析方法更多是基于纯文本的信息解析,对于PDF等图像类型的文档或包含表格等特殊元素的文档而言,解析出的关键信息可能不完整、不准确。
发明内容
有鉴于此,本申请实施例提供了一种文档解析方法、系统及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文档解析方法,包括:
获取目标文档,并提取所述目标文档包含的至少一个文本信息;
对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别;
根据所述文本类别对所述至少一个文本信息进行信息抽取,获得所述目标文档中包含的关键信息。
可选地,所述提取所述目标文档包含的至少一个文本信息,包括:
确定所述目标文档的文档类型;
根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息。
可选地,所述根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息,包括:
在所述文档类型为文本类型的情况下,对所述目标文档进行文本提取,获得目标文本;
将所述目标文本进行分句处理,生成语句序列;
将所述语句序列中的每个文本语句依次输入至语句特征提取模型,获得所述语句特征提取模型输出的每个文本语句对应的语句特征向量;
将每个文本语句对应的语句特征向量输入至特征分类模型,获得所述特征分类模型输出的每个文本语句对应的语句类别;
根据每个文本语句对应的语句类别对所述目标文本进行分块处理,获得至少一个文本信息。
可选地,所述对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别,包括:
根据所述语句特征向量以及所述至少一个文本信息,确定每个文本信息对应的文本类别。
可选地,所述根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息,包括:
在所述文档类型为图像类型的情况下,通过目标检测模型确定所述目标文档中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本信息。
可选地,所述对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别,包括:
将每个文本区域中的文本信息输入文本分类模型,确定每个文本信息的多个类别置信度,其中,每个文本信息的每个类别置信度用于表征所述文本信息属于参考类别的概率;
基于每个文本信息的多个类别置信度,确定每个文本信息的文本类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111424953.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能加热装置
- 下一篇:一种基于医疗器械唯一标识编码的管理方法和系统