[发明专利]文本处理模型的训练方法及装置在审
| 申请号: | 202210396669.1 | 申请日: | 2022-04-15 |
| 公开(公告)号: | CN114706984A | 公开(公告)日: | 2022-07-05 |
| 发明(设计)人: | 吴通通;赵薇;柳景明;李旭 | 申请(专利权)人: | 北京飞象星球科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
| 地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 模型 训练 方法 装置 | ||
本说明书提供文本处理模型的训练方法及装置,其中所述文本处理模型的训练方法包括:对初始样本集中的组合样本文本进行重构处理,获得目标样本集,其中,所述组合样本文本包括至少两种类型的子文本;基于文本处理模型中的编码单元对所述目标样本集包含的目标样本数据进行编码处理,获得编码向量;对所述编码向量进行更新,并基于所述文本处理模型中的分类单元对更新后的编码向量进行分类处理,获得对应所述目标样本数据的预测类别;根据所述预测类别和所述目标样本数据对应的目标类别,将所述文本处理模型更新为目标文本处理模型。从而提高文本处理模型的预测准确率。
技术领域
本说明书涉及人工智能技术领域,特别涉及一种文本处理模型的训练方法。本说明书同时涉及一种文本处理模型的训练装置、一种文本处理方法、一种文本处理装置、一种计算设备以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,在教学环境下,会为多个学科题目设定章节标签,实现学科题目的分类,进而将题目和章节标签一同存储到教学系统。现有技术中,教师通常需要手动为多个学科题目标注章节标签,这种方式将耗费大量的人力,因此需要更为简单便捷的方法对题目进行章节标注。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理模型的训练方法。本说明书同时涉及一种文本处理模型的训练装置、一种文本处理方法、一种文本处理装置、一种计算设备以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理模型的训练方法,包括:
对初始样本集中的组合样本文本进行重构处理,获得目标样本集,其中,所述组合样本文本包括至少两种类型的子文本;
基于文本处理模型中的编码单元对所述目标样本集包含的目标样本数据进行编码处理,获得编码向量;
对所述编码向量进行更新,并基于所述文本处理模型中的分类单元对更新后的编码向量进行分类处理,获得对应所述目标样本数据的预测类别;
根据所述预测类别和所述目标样本数据对应的目标类别,将所述文本处理模型更新为目标文本处理模型。
可选地,所述对初始样本集中的组合样本文本进行重构处理,获得目标样本集,包括:
获取初始样本集;
选择初始样本集中包含至少两种类型的子文本的样本文本作为组合样本文本,以及选择包含一种类型的子文本的样本文本作为单样本文本;
对所述组合样本文本进行重构处理,获得中间样本文本;
基于所述中间样本文本和单样本文本构建所述目标样本集。
可选地,所述对所述组合样本文本进行重构处理,获得中间样本文本,包括:
在所述组合样本文本中提取非题干子文本和题干子文本;
确定所述非题干子文本对应的重构数值;
在所述重构数值大于预设重构阈值的情况下,将所述题干子文本作为中间样本文本。
可选地,还包括:
确定所述非题干子文本中答案子文本对应的答案重构数值;
在所述答案重构数值小于所述预设重构阈值的情况下,确定所述非题干子文本中解析子文本对应的解析重构数值;
在所述解析重构数值大于所述预设重构阈值的情况下,根据所述答案子文本所述题干子文本构建中间样本文本。
可选地,所述对所述编码向量进行更新,包括:
按照预设选择策略在所述编码向量中选择待处理向量元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京飞象星球科技有限公司,未经北京飞象星球科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210396669.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于润滑的精密齿轮
- 下一篇:一种锂离子电池隔膜纸及其制备方法





