[发明专利]文本抽取方法、设备和存储介质有效
申请号: | 202110227045.2 | 申请日: | 2021-03-01 |
公开(公告)号: | CN113051926B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 章玥;方舟;史亚冰;蒋烨;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 抽取 方法 设备 存储 介质 | ||
1.一种文本抽取方法,包括:
获取待抽取文本以及对应的属性;
确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息;
将所述第一语义特征信息和所述第二语义特征信息输入至抽取模型中指针网络层的开始位置预测层,以得到所述待抽取文本中各个文本单元作为属性值的开始位置的第一预测结果;
将所述第一语义特征信息、所述第二语义特征信息和所述第一预测结果输入至抽取模型中指针网络层的结束位置预测层,以得到各个文本单元作为属性值的结束位置的第二预测结果;
从所述第一预测结果中,获取可作为属性值的开始位置的多个文本单元在所述待抽取文本中所对应的多个第一位置;
从所述第二预测结果中,获取可作为属性值的结束位置的多个文本单元在所述待抽取文本中所对应的多个第二位置;
根据所述多个第一位置和所述多个第二位置,确定各个属性值在所述待抽取文本的开始位置和结束位置;
根据各个属性值在所述待抽取文本的开始位置和结束位置,确定所述待抽取文本针对所述属性的属性值抽取结果。
2.根据权利要求1所述的方法,其中,所述根据所述多个第一位置和所述多个第二位置,确定各个属性值在所述待抽取文本的开始位置和结束位置,包括:
针对各个第一位置,从所述多个第二位置中,获取位于所述第一位置之后且距离所述第一位置最近的目标第二位置,并将所述第一位置和所述目标第二位置分别作为对应属性值在所述待抽取文本的开始位置和结束位置;
针对各个第二位置,从所述多个第一位置中,获取位于所述第二位置之前且距离所述第二位置最近的目标第一位置,并将所述目标第一位置和所述第二位置分别作为对应属性值在所述待抽取文本的开始位置和结束位置。
3.根据权利要求1所述的方法,其中,所述抽取模型还包括语义表示层,所述确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息,包括:
将所述属性和所述待抽取文本输入至所述语义表示层,以得到所述属性的第一语义特征信息和所述待抽取文本的第二语义表示信息。
4.根据权利要求1所述的方法,其中,在所述获取待抽取文本以及对应的属性之前,所述方法还包括:
获取多任务学习网络以及对应的训练数据,其中,所述多任务学习网络包括初始的指针网络层;
根据所述训练数据对所述多任务学习网络进行训练,以得到训练后的多任务学习网络;
根据所述训练后的多任务学习网络中的指针网络层,确定所述抽取模型中的所述指针网络层。
5.根据权利要求4所述的方法,其中,所述多任务学习网络模型还包括初始的分类模型,所述训练数据包括样本文本以及样本属性的语义表示特征、所述样本文本对应的标签数据,所述根据所述训练数据对所述多任务学习网络进行训练,以得到训练后的多任务学习网络,包括:
将所述样本文本以及所述样本属性的语义表示特征输入至所述初始的分类模型,以通过所述初始的分类模型来确定所述样本文本是否包括所述样本属性的属性值的分类预测结果;
将所述样本文本以及所述样本属性的语义表示特征输入至所述初始的指针网络层,以得到所述样本属性的属性值抽取预测结果;
根据所述分类预测结果、所述属性值抽取预测结果以及所述标签数据,对所述多任务学习网络进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110227045.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种病理科用人体取样装置
- 下一篇:情绪识别方法、系统、可穿戴设备及存储介质