[发明专利]一种跨域无监督文本匹配方法、设备及介质在审

专利信息
申请号: 202211093627.7 申请日: 2022-09-08
公开(公告)号: CN115577695A 公开(公告)日: 2023-01-06
发明(设计)人: 朱锦雷;刘鹏程;张琨;潘玲玲;张传锋 申请(专利权)人: 神思电子技术股份有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/30;G06F16/35;G06F16/383;G06N3/04;G06N3/08
代理公司: 济南千慧专利事务所(普通合伙企业) 37232 代理人: 傅静
地址: 250101 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 跨域无 监督 文本 匹配 方法 设备 介质
【说明书】:

本申请公开了一种跨域无监督文本匹配方法、设备及介质,方法包括:将文本数据输入至预先基于无监督训练完毕的神经网络模型中;在其他域中检索得到与之匹配的文本信息;神经网络模型针对每个域分别通过对应的分支进行交叉训练得到,第一损失函数基于训练样本在不同分支的前向计算结果之间的相似度得到,第二损失函数基于训练样本在目标域对应分支的前向计算结果,与其他域的特征库之间的距离值得到。通过无监督训练的方式,可以减少数据集成本的消耗,无需人工进行标注。通过第一损失函数,保证神经网络模型对于各文本的分辨能力。通过第二损失函数,能够保证神经网络模型在文本匹配时,在其他域中能够准确的匹配得到与目标域内文本匹配结果。

技术领域

本申请涉及计算机领域,具体涉及一种跨域无监督文本匹配方法、设备及介质。

背景技术

文本匹配常用于对话意图匹配、地址信息匹配、身份信息匹配、人物特征匹配等,主要是针对不同来源但语义相同的文本信息进行处理。以地址信息匹配为例,不同的统计渠道中,对居民住宅位置、单位位置等地址信息的描述不尽相同,如电力公司、户籍系统、房管系统、快递系统、燃气系统、供热系统、供水系统、家政系统、网购系统等对同一住户的地址有数种登记方式,甚至连住户在登记或查询信息时也较为随意地输入地址信息,这些信息在不同系统域或统计域中以不同的方式进行表示。

文本匹配用途广泛,如在地址信息匹配中,用户希望搜索引擎能根据已输入信息精确提示标准的地址写法;供热公司、供气公司希望将之前分别登记的地址进行合并,实现一户一址,便于管理等。

现有的文本匹配方法多基于文字搜索的方式进行,如果两种文本的写法差异较大时,实现首位或前几位匹配时效果较差。或者,对文本进行人工标注,采用有监督的方式进行训练,实现对文本的分类与检索,这将消耗大量的数据集成成本。

发明内容

为了解决上述问题,本申请提出了一种跨域无监督文本匹配方法,包括:

获取多个域分别对应的文本信息,并将所述文本数据输入至预先基于无监督训练完毕的神经网络模型中;

通过所述神经网络模型,针对目标域中的文本信息,在其他域中检索得到与之匹配的文本信息,以实现跨域的文本匹配;

其中,所述神经网络模型在训练时,针对每个域分别通过对应的分支进行交叉训练得到,所述神经网络模型训练时使用的损失函数至少包括第一损失函数和第二损失函数,所述第一损失函数基于训练样本在不同分支的前向计算结果之间的相似度得到,所述第二损失函数基于所述训练样本在目标域对应分支的前向计算结果,与其他域的特征库之间的距离值得到。

在一个示例中,所述神经网络模型的训练过程至少包括:

将所述目标域对应的第一训练样本集,与所述其他域对应的第二训练样本集进行预训练,得到输入向量;

将所述输入向量分别输入至所述目标域对应的第一预训练模型,以及所述其他域对应的第二预训练模型中,分别得到对应的第一前向计算结果和第二前向计算结果;

根据所述第一前向计算结果和所述第二前向计算结果,生成特征相似度矩阵,并根据所述特征相似度矩阵得到第一损失函数。

在一个示例中,将所述目标域对应的第一训练样本集,与所述其他域对应的第二训练样本集进行预训练,得到输入向量,具体包括:

分别独立采集所述目标域对应的第一训练样本集,以及所述其他域对应的第二训练样本集;

将所述第一训练样本集与所述第二训练样本集分别进行预训练,得到字词嵌入编码向量;并选择支持地址切分的实体标注预训练模型,输出实体标注编码向量;

从所述第一训练样本集中筛选得到批处理组,并针对所述批处理组中的训练样本,将所述字词嵌入编码向量与所述实体标注编码向量进行拼接,得到输入向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211093627.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top