[发明专利]文档标题树的生成方法、系统、设备及可读存储介质在审
申请号: | 202111432694.2 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114065745A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王超;李果夫 | 申请(专利权)人: | 平安资产管理有限责任公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F16/31 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 饶文彬 |
地址: | 200120 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 标题 生成 方法 系统 设备 可读 存储 介质 | ||
本发明公开了一种文档标题树的生成方法,包括:抽取待解析文档的标题数据,得到每个标题数据对应的节点集合;从节点集合任意选取第一节点,并对第一节点对应的标题数据进行向量化处理,得到第一节点向量;基于第一节点向量构建初始标题树;判断初始标题树是否需要加入新的节点向量;若需要,则从节点集合的剩余节点向量中获取第二节点,并对第二节点进行初始化处理,得到第二节点向量;基于第二节点向量确定是否对初始标题树进行添加边处理;若是,则根据第二节点向量及第一节点向量更新初始标题树,得到更新标题树;判断更新标题树是否需要加入新的节点向量;若不需要,将更新标题树作为目标标题树,以提高文档标题树生成的准确性。
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种文档标题树的生成方法、系统、设备及可读存储介质。
背景技术
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的重要组成部分,主要实现将语义信息按照一定的语法和语义规则生成人类可以理解的语言表达形式。根据文本的长短,NLG可以分为语句生成和文档生成。文档通常包含标题和段落等两部分。标题之间有一定的层级和归属关系,可以看成是一种树形结构。
和语句结构上不同,标题是一种具有多层级、上下级所属关系和同级关系(并列、递进、转折等)等特点的复杂树形结构,现有的语句解析通常是对语法结构和单词属性进行标注,但标题自身包含语言内容,其解析和标注还涉及语义嵌入等过程,从而导致对标题解析不准确。
发明内容
有鉴于此,本发明实施例的目的是提供一种文档标题树的生成方法、系统、设备及可读存储介质,用以解决现有文档标题树生成不准确的问题。
为实现上述目的,本发明实施例提供了一种文档标题树的生成方法,包括:
抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
基于所述第一节点向量构建初始标题树;
判断所述初始标题树是否需要加入新的节点向量;
若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量;
若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
进一步地,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:
若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:
从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量。
进一步地,所述判断所述初始标题树是否需要加入新的节点向量包括:
通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安资产管理有限责任公司,未经平安资产管理有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111432694.2/2.html,转载请声明来源钻瓜专利网。