[发明专利]文本关键词提取方法、模型的训练方法、装置和电子设备在审
| 申请号: | 202310458542.2 | 申请日: | 2023-04-24 |
| 公开(公告)号: | CN116384392A | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 倪志恒 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F16/35;G06F18/214;G06F18/2415;G06N3/0464;G06N3/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 孙小明 |
| 地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 关键词 提取 方法 模型 训练 装置 电子设备 | ||
本申请涉及文字处理技术领域,提供一种文本关键词提取方法、模型的训练方法、装置和电子设备,获取待处理文本包含的待处理注释信息;将待处理注释信息输入已训练的关键词识别模型,得到待处理注释信息的文本关键词;生成的文本关键词用于数据元对标,其中,关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,训练样本数据包括带有关键词标签的字段注释文本;关键词识别模型的目标损失函数为截断交叉熵损失函数。该方法,可以使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
技术领域
本申请实施例涉及文字处理技术领域,尤其涉及一种文本关键词提取方法、模型的训练方法、装置和电子设备。
背景技术
在自然语言处理过程中,不论自然语言处理任务是文本生成、文本分类、机器翻译或者是其他类型的任务,如果希冀任务最终的性能表现比较好,就需要保证数据的质量。所以,无论是基于什么任务都需要对数据进行相关的处理,将其处理成为模型更好理解的形式。
在数据元对标领域也是如此,数据元对标这个任务本质上可以理解成为一个文本匹配问题,将需要进行对标的数据与现存库中的数据进行一种相似度计算,召回相似度最高的数据元作为其对标数据元。在这个文本匹配的任务当中,重点在于对于字段注释文本的表示,文本表示的效果越好,其对标的效果也就越好。但是,在数据元对标的过程中,会面临着很多的挑战,其中亟待解决的就是对于原始字段注释的处理,在注释当中,一般都会包含了对于这一个字段的解释和说明,方便其他人更好的理解其意义,数据元对标也需要利用它的表示来进行文本匹配。
相关技术中,通常是将原始字段注释的信息都作为模型的输入进行数据元对标,容易造成数据元对标的准确性低下。因此,如何提供一种方法提高数据元对标的准确率,具有重要的现实意义。
发明内容
本申请实施例提供了一种文本关键词提取方法、模型的训练方法、装置和电子设备,实现原始字段注释的关键词提取,可以提高数据元对标的准确率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供文本关键词提取方法,所述文本关键词用于数据元对标;所述方法包括:
获取待处理文本包含的待处理注释信息;
将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词;
所述关键词识别模型是采用训练样本数据对语言提取模型进行训练得到的,所述训练样本数据包括带有关键词标签的字段注释文本,所述语言提取模型用于获取输入注释信息的关键词,且语言提取模型的目标损失函数收敛至预设的目标条件时获得已训练的关键词识别模型;所述目标损失函数为截断交叉熵损失函数;所述截断交叉熵损失函数为使第一类样本对应的损失值收敛,且使第二类样本对应的损失值不收敛的交叉熵损失函数;所述第一类样本的预测概率落入第一控制值和第二控制值之间的概率控制区域;所述第二类样本的预测概率未落入所述概率控制区域。
本申请实施例提供的文本关键词提取方法,获取待处理文本包含的待处理注释信息;将所述待处理注释信息输入已训练的关键词识别模型,得到所述待处理注释信息的所述文本关键词,生成的文本关键词用于数据元对标,其中,关键词识别模型的目标损失函数为截断交叉熵损失函数。该方法,可以使得模型能够将更多的精力放在模型难以区分的样本上,让模型有意识的去分辨模棱两可的样本,能有效缓解模型的过拟合,实现对原始字段注释的关键词的准确提取,可以提高数据元对标的准确率。
在一种可选的实施例中,所述关键词识别模型通过如下方式训练得到:
获得训练样本数据,所述训练样本数据包括带有关键词标签的字段注释文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310458542.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:视频信号处理方法和设备
- 下一篇:一种提高芒果产量的种植管理方法





