[发明专利]一种基于远程监督的语义匹配模型的生成方法及系统在审

专利信息
申请号: 202211166854.8 申请日: 2022-09-23
公开(公告)号: CN115563512A 公开(公告)日: 2023-01-03
发明(设计)人: 程栋;谭锐;潘希尧;张泽宏;王晔 申请(专利权)人: 上海市大数据股份有限公司
主分类号: G06F18/22 分类号: G06F18/22;G06F18/214;G06F18/241;G06F16/35;G06F40/30
代理公司: 上海申新律师事务所 31272 代理人: 吴轶淳
地址: 200331 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 远程 监督 语义 匹配 模型 生成 方法 系统
【说明书】:

发明提供一种基于远程监督的语义匹配模型的生成方法及系统,涉及机器学习技术领域,包括:获取预设应用场景的若干原始文本数据,并对各原始文本数据进行数据增强得到多个增强文本数据,每个增强文本数据关联有预设应用场景对应的标准语义类别标签;根据各增强文本数据及关联的标准语义类别标签对预训练的语言模型进行权重微调得到微调后模型;根据微调后模型对各原始文本数据进行句嵌入得到多个语义向量,并对各语义向量进行自动标注得到多个语义匹配向量对和对个语义不匹配向量对;根据各语义匹配向量对和各语义不匹配向量对训练得到语义匹配模型。有益效果是有效减少大量人工标注的成本,一定程度上缓解了语义匹配模型冷启动困难的问题。

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于远程监督的语义匹配模型的生成方法及系统。

背景技术

语义匹配的最直接目标就是判断两段话是否表达了相同的意思,面向语句的语义匹配的主要任务有两项:1、寻找描述关键特征的合理词嵌入方式;2、对两个语句的语义向量进行语义相似性的二分类判断。

业内通用的语义匹配技术一般是通过词频维度,或是对文本进行词嵌入,又或是运用预训练语言模型进行句子级别的嵌入,来实现向量表示,计算句子之间的相似度。但多少的相似度可以判定为语义匹配,只能通过阈值,具有一定的局限性。另外一种方案是将语义匹配作为句子对的文本的二分类任务,可以基于word2vec+lstm,又或者是基于预训练语言模型实现,但基本上都需要相当规模的经过标注的语义匹配训练数据,而带标签的训练数据往往是较少或者不完全的,模型冷启动困难。进一步地,如果要达到满意的准确率要求,需要的训练数据数量至少在20万以上。对这个量级的数据进行人工标注的成本太高并且这个量级的数据量会对计算性能带来压力。

发明内容

针对现有技术中存在的问题,本发明提供一种基于远程监督的语义匹配模型的生成方法,包括:

步骤S1,获取预设应用场景的若干原始文本数据,并对各所述原始文本数据进行数据增强得到多个增强文本数据,每个所述增强文本数据关联有所述预设应用场景对应的标准语义类别标签;

步骤S2,根据各所述增强文本数据及关联的所述标准语义类别标签对预训练的语言模型进行权重微调得到微调后模型;

步骤S3,根据所述微调后模型对各所述原始文本数据进行句嵌入得到多个语义向量,并对各所述语义向量进行自动标注得到多个语义匹配向量对和对个语义不匹配向量对;

步骤S4,根据各所述语义匹配向量对和各所述语义不匹配向量对训练得到语义匹配模型。

优选的,所述步骤S1包括:

步骤S11,由所述预设应用场景关联的各业务系统中获取各所述原始文本数据,每个所述原始文本数据关联有对应的所述业务系统中定义的原始语义类别标签;

步骤S12,将各所述原始语义类别标签对应标准化为所述预设应用场景中的所述标准语义类别标签,并将具有相同所述标准语义类别标签的各所述原始文本数据进行数据融合;

步骤S13,根据数据融合后的各所述原始文本数据对每个所述标准语义类别标签进行类别评分得到相应的评分值,并判断所述评分值是否大于预设的评分阈值:

若是,则将对应的所述标准语义类别标签关联的各所述原始文本数据加入高质量数据集合,随后转向步骤S14;

若否,则将对应的所述标准语义类别标签关联的各所述原始文本数据加入低质量数据集合,随后转向步骤S15;

步骤S14,对所述高质量数据集合中的各所述原始文本数据进行词提取,并基于词提取得到的各语义代表词构建得到语义词典;

步骤S15,根据所述语义词典对所述低质量数据集合中的各所述原始文本数据配置所述标准语义类别标签;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市大数据股份有限公司,未经上海市大数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211166854.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top