[发明专利]文档标题树的生成方法、系统、设备及可读存储介质在审
申请号: | 202111432694.2 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114065745A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王超;李果夫 | 申请(专利权)人: | 平安资产管理有限责任公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F16/31 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 饶文彬 |
地址: | 200120 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 标题 生成 方法 系统 设备 可读 存储 介质 | ||
1.一种文档标题树的生成方法,其特征在于,包括:
抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
基于所述第一节点向量构建初始标题树;
判断所述初始标题树是否需要加入新的节点向量;
若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量;
若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
2.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:
若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:
从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量。
3.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述初始标题树是否需要加入新的节点向量包括:
通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;
通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值;
将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
4.根据权利要求3所述的文档标题树的生成方法,其特征在于,所述对所述第二节点向量进行初始化处理包括:
获取所述第二节点向量在所述待解析文档中的属性信息,并对所述属性信息进行向量化处理,得到属性向量;
基于所述属性向量以及所述初始标题树对所述第二节点向量进行初始化处理。
5.根据权利要求4所述的文档标题树的生成方法,其特征在于,所述基于所述第二节点向量确定是否对所述初始标题树进行添加边处理包括:
基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;
将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
6.根据权利要求5所述的文档标题树的生成方法,其特征在于,所述根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树包括:
若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值;
基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量;
基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
7.根据权利要求6所述的文档标题树的生成方法,其特征在于,所述基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树之前,包括:
根据所述第三概率值确定所述第一更新节点向量与所述第二更新节点向量之间的边的方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安资产管理有限责任公司,未经平安资产管理有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111432694.2/1.html,转载请声明来源钻瓜专利网。