[发明专利]文本要素提取方法、装置及电子设备在审
申请号: | 201911284362.7 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111078823A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 李亮;孙德毅;蔺文萃;李文 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 孔默 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 要素 提取 方法 装置 电子设备 | ||
1.一种文本要素提取方法,其特征在于,包括:
获取目标文本;
分别通过M个要素提取模型,对所述目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果。
2.根据权利要求1所述的文本要素提取方法,其特征在于,所述根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果,包括:
获得所述M个要素提取模型中,每个要素提取模型对应的模型权重;
针对所述M个要素提取模型中包括的每个要素提取模型,根据所述要素提取模型对应的模型权重,以及所述要素提取模型对应的参考要素提取结果,获得所述目标文本的文本要素提取结果。
3.根据权利要求2所述的文本要素提取方法,其特征在于,所述获得所述M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
获取测试数据集,所述测试数据集包括测试文本,以及所述测试文本中,每个第一字符对应的第一标签;
通过所述测试数据集,分别对所述M个要素提取模型中包括的每个要素提取模型进行测试,获得M个测试结果;
根据所述M个测试结果,获得所述M个要素提取模型中,每个要素提取模型对应的模型权重。
4.根据权利要求3所述的文本要素提取方法,其特征在于,所述根据所述M个测试结果,获得所述M个要素提取模型中,每个要素提取模型对应的模型权重,包括:
针对所述M个要素提取模型中包括的每个要素提取模型,获得所述要素提取模型对应的测试结果的准确率,作为所述要素提取模型对应的模型权重。
5.根据权利要求3所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
获取训练数据集,所述训练数据集包括训练文本,以及所述训练文本中,每个第二字符对应的第二标签;
通过所述训练数据集,分别对M个原始模型进行训练,获得所述M个要素提取模型。
6.根据权利要求1所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
根据所述文本要素提取结果,获得目标文本信息;
对所述目标文本信息进行显示。
7.根据权利要求1所述的文本要素提取方法,其特征在于,所述文本要素提取方法,还包括:
基于所述目标文本,获得与所述文本要素提取结果对应的原始文本信息;
对所述原始文本信息进行显示。
8.一种文本要素提取装置,其特征在于,包括:
文本获取模块,用于获取目标文本;
第一结果提取模块,用于分别通过M个要素提取模型,对所述目标文本进行要素提取,获得M个参考要素提取结果,其中,M≥2,且为整数;
第二结果提取模块,用于根据所述M个参考要素提取结果,获得所述目标文本的文本要素提取结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行所述计算机程序,以实现权利要求1~7中任意一项所述的文本要素提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被执行时,实现权利要求1~7中任意一项所述的文本要素提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911284362.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力资源分配管理方法
- 下一篇:用于安装电池组件散热支架的加热固化设备