[发明专利]模型训练方法及装置、知识抽取方法及装置、设备和介质在审
申请号: | 202111302016.4 | 申请日: | 2021-11-04 |
公开(公告)号: | CN114186533A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 李舰;史亚冰;蒋烨;柴春光;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/295;G06F40/205;G06F16/332 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 知识 抽取 设备 介质 | ||
1.一种模型训练方法,所述方法包括:
获取样本集合中的至少一个样本文档,并对所述样本文档进行解析,以确定所述样本文档中各元素在所述样本文档中所属的层级;
根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述样本文档中对应层级的元素;
针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到预测知识;
根据所述预测知识和所述节点所指示的元素在所述样本文档上对应的标注知识之间的差异,对所述目标知识抽取模型进行训练。
2.根据权利要求1所述的方法,其中,所述获取样本集合中的至少一个样本文档之后,所述方法还包括:
对所述样本文档进行数据增强处理,得到扩充样本;
采用所述扩充样本,对所述样本集合进行更新;
其中,所述数据增强处理包括以下处理中的至少一项:
对所述样本文档中的至少一个词语进行同义词替换处理;
对所述样本文档中的至少一个词语进行同类型词语替换处理;
对所述样本文档中的至少一个词语进行乱序处理;
根据设定知识和所述样本文档中的至少一个源语句,生成目标语句,并利用所述目标语句对所述样本文档中的所述源语句进行替换处理。
3.根据权利要求2所述的方法,其中,所述数据增强处理还包括:
将属于第一语言的所述样本文档翻译为第二语言的翻译文本;
将所述翻译文本进行翻译,以得到第一语言的回译文本;
利用所述回译文本对所述样本文档进行更新处理。
4.根据权利要求2所述的方法,其中,所述标注知识包括各实体词以及各所述实体词对应的实体标签;
所述数据增强处理还包括以下处理中的至少一项:
确定所述样本文档中具有相同实体标签的至少两个实体词,对所述至少两个实体词进行替换处理;
从所述样本文档中确定与设定实体标签相同的目标实体标签,采用所述设定实体标签对应的实体词,对所述样本文档中所述目标实体标签对应的实体词进行替换处理。
5.根据权利要求4所述的方法,其中,所述标注知识还包括各所述实体词之间的实体关系以及所述实体关系对应的关系标签;
所述数据增强处理还包括以下处理中的至少一项:
确定所述样本文档中具有相同关系标签的至少两个实体关系,对所述至少两个实体关系进行替换处理;
从所述样本文档中确定与设定关系标签相同的目标关系标签,采用所述设定关系标签对应的实体关系,对所述样本文档中所述目标关系标签对应的实体关系进行替换处理。
6.根据权利要求1-5中任一项所述的方法,其中,所述获取样本集合中的至少一个样本文档之后,所述方法还包括:
获取所述样本文档的文档格式;
判断所述文档格式是否为设定格式;
在所述文档格式不为所述设定格式的情况下,对所述样本文档进行格式转换,以得到所述设定格式的样本文档。
7.根据权利要求1-5中任一项所述的方法,其中,所述方法还包括:
获取待标注的目标文档;
基于各所述目标知识抽取模型对所述目标文档进行知识抽取,以得到目标知识;
响应于针对所述目标知识的更新操作,对所述目标知识进行更新,并利用更新后的目标知识,对所述目标文档进行标注;
采用标注后的目标文档,对各所述目标知识抽取模型进行重新训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111302016.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种喷嘴旋转的单水动力防砸喷雾降尘器
- 下一篇:一种高合金方坯的径向锻造方法