[发明专利]文档解析方法、系统及装置在审
申请号: | 202111424953.7 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114090776A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 毛璐;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F8/41 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 解析 方法 系统 装置 | ||
1.一种文档解析方法,其特征在于,包括:
获取目标文档,并提取所述目标文档包含的至少一个文本信息;
对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别;
根据所述文本类别对所述至少一个文本信息进行信息抽取,获得所述目标文档中包含的关键信息。
2.根据权利要求1所述的文档解析方法,其特征在于,所述提取所述目标文档包含的至少一个文本信息,包括:
确定所述目标文档的文档类型;
根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息。
3.根据权利要求2所述的文档解析方法,其特征在于,所述根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息,包括:
在所述文档类型为文本类型的情况下,对所述目标文档进行文本提取,获得目标文本;
将所述目标文本进行分句处理,生成语句序列;
将所述语句序列中的每个文本语句依次输入至语句特征提取模型,获得所述语句特征提取模型输出的每个文本语句对应的语句特征向量;
将每个文本语句对应的语句特征向量输入至特征分类模型,获得所述特征分类模型输出的每个文本语句对应的语句类别;
根据每个文本语句对应的语句类别对所述目标文本进行分块处理,获得至少一个文本信息。
4.根据权利要求3所述的文档解析方法,其特征在于,所述对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别,包括:
根据所述语句特征向量以及所述至少一个文本信息,确定每个文本信息对应的文本类别。
5.根据权利要求2所述的文档解析方法,其特征在于,所述根据所述文档类型对所述目标文档进行信息提取,获得至少一个文本信息,包括:
在所述文档类型为图像类型的情况下,通过目标检测模型确定所述目标文档中的至少一个文本区域;
对所述至少一个文本区域中的文本内容进行识别,确定所述至少一个文本区域中的文本信息。
6.根据权利要求5所述的文档解析方法,其特征在于,所述对所述至少一个文本信息进行文本分类,获得每个文本信息的文本类别,包括:
将每个文本区域中的文本信息输入文本分类模型,确定每个文本信息的多个类别置信度,其中,每个文本信息的每个类别置信度用于表征所述文本信息属于参考类别的概率;
基于每个文本信息的多个类别置信度,确定每个文本信息的文本类别。
7.根据权利要求1所述的文档解析方法,其特征在于,在任意一个文本信息为单元素信息的情况下,对任意一个文本信息进行信息抽取,通过如下方式实现:
将待处理文本信息输入所述待处理文本信息的第一文本类别对应的第一关键词识别模型,获得所述待处理文本信息中包含的第一关键信息;或,
按照所述第一文本类别对应的第一预设规则对所述待处理文本信息进行关键信息识别,获得所述待处理文本信息中包含的第二关键信息;或,
将所述待处理文本信息输入预先训练的所述第一文本类别对应的第一关键词识别模型,获得所述待处理文本信息中包含的第一关键信息;按照所述第一文本类别对应的第一预设规则对所述待处理文本信息进行关键信息识别,获得所述待处理文本信息中包含的第二关键信息;基于所述第一关键信息以及所述第二关键信息确定所述待处理文本信息中包含的关键信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111424953.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能加热装置
- 下一篇:一种基于医疗器械唯一标识编码的管理方法和系统