[发明专利]一种标题文本处理方法、装置、电子设备及存储介质有效
| 申请号: | 202010298474.4 | 申请日: | 2020-04-16 |
| 公开(公告)号: | CN111507097B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 刘刚 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 标题 文本 处理 方法 装置 电子设备 存储 介质 | ||
1.一种标题文本处理方法,其特征在于,该方法包括:
分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到所述待检测标题文本对应的一组分词,每个分词包括至少一个字符;
针对每个分词,将所述待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过所述已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量;针对各分词中的每个字符,对所述字符对应的字向量、文本向量以及位置向量进行求和处理,得到每个字符对应的和向量;根据所述每个字符对应的和向量进行融合处理得到所述字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在所述待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息;
根据所述标题文本质量评价信息,对所述待检测标题文本执行相应的控制策略。
2.如权利要求1所述的方法,其特征在于,所述根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息,具体包括:
将各分词中每个字符对应的融合向量输入至已训练的文本评价网络,通过所述已训练的文本评价网络对每个字符对应的融合向量进行均值化处理,得到所述待检测标题文本对应的标题文本质量评价向量,并对所述待检测标题文本对应的标题文本质量评价向量进行归一化处理,得到所述待检测标题文本对应的标题文本质量评价信息。
3.如权利要求2所述的方法,其特征在于,根据下列方式对所述特征提取网络和所述文本评价网络进行训练:
从训练样本数据集中选取训练样本;其中,所述训练样本中包含标题文本样本、以及预先标注的所述标题文本样本对应的标题文本质量评价信息;
分别以不同的字符个数为分词单位,对训练样本中包含的标题文本样本进行分词处理得到所述标题文本样本对应的一组分词样本;
将所述标题文本样本对应的一组分词样本,以及所述训练样本中包含的预先标注的所述标题文本样本对应的标题文本质量评价信息参数输入初始特征提取网络,并将所述初始特征提取网络输出的各个字符的融合向量输入初始文本评价网络;
获得所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息;
根据预先标注的所述标题文本样本对应的标题文本质量评价信息,以及所述初始文本评价网络输出的所述标题文本样本对应的标题文本质量评价信息确定损失值,并根据损失值对所述特征提取网络和所述文本评价网络的模型参数进行调整,直到确定出的损失值在预设范围内,得到训练后的所述特征提取网络和所述文本评价网络。
4.如权利要求2~3任一项所述的方法,其特征在于,所述特征提取网络为BERT网络。
5.一种标题文本处理装置,其特征在于,包括:
分词模块,用于分别以不同的字符个数为分词单位,对待检测标题文本进行分词处理得到所述待检测标题文本对应的一组分词,每个分词包括至少一个字符;
确定模块,用于针对每个分词,将所述待检测标题文本对应的一组分词输入至已训练的特征提取网络,通过所述已训练的特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量;针对各分词中的每个字符,对所述字符对应的字向量、文本向量以及位置向量进行求和处理,得到每个字符对应的和向量;根据所述每个字符对应的和向量进行融合处理得到所述字符对应的融合向量;其中,字符的字向量用于表示字符的标识信息,字符的文本向量用于表示字符在所在分词中的语义信息,字符的位置向量用于表示字符在所述待检测文本和所在分词中的位置信息,字符的融合向量是对字符对应的字向量、文本向量以及位置向量进行融合处理得到的;
获取模块,用于根据各分词中每个字符对应的融合向量,获得所述待检测标题文本对应的标题文本质量评价信息;
控制模块,用于根据所述标题文本质量评价信息,对所述待检测标题文本执行相应的控制策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010298474.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习技术的医学图像增强方法
- 下一篇:第三类热驱动压缩式热泵





