[发明专利]一种车联网文本匹配方法、装置、电子设备及存储介质有效
申请号: | 202110622070.0 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113282711B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 邹博松;王卉捷;宋娟;郭盈 | 申请(专利权)人: | 中国软件评测中心(工业和信息化部软件与集成电路促进中心) |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/211;G06F40/216;G06N3/08 |
代理公司: | 北京超凡宏宇知识产权代理有限公司 11463 | 代理人: | 唐正瑜 |
地址: | 100082 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联网 文本 匹配 方法 装置 电子设备 存储 介质 | ||
1.一种车联网文本匹配方法,其特征在于,包括:
获取待匹配文本,并提取出所述待匹配文本的摘要内容和所述待匹配文本的依存句法核心成分;
将所述摘要内容、所述依存句法核心成分和所述待匹配文本进行分词和向量化,获得嵌入向量矩阵,所述嵌入向量矩阵包括句子成分向量、令牌嵌入向量、位置嵌入向量和/或逆序位置嵌入向量;
对所述句子成分向量、所述令牌嵌入向量、所述位置嵌入向量和/或所述逆序位置嵌入向量进行融合处理,获得输入表示向量;
使用文本匹配模型根据所述输入表示向量对多个检索文本进行匹配排序,获得排序后的多个检索文本,所述文本匹配模型是通过多任务联合训练获得的;
其中,所述提取出所述待匹配文本的摘要内容和所述待匹配文本的依存句法核心成分,包括:使用预先训练的生成式预训练模型作为摘要抽取模型对所述待匹配文本进行摘要抽取,获得所述待匹配文本的摘要内容;使用依存分析工具提取出所述待匹配文本中的主谓关系成分、动宾关系成分、间宾关系成分、状中结构成分和/或核心关系成分,并将所述主谓关系成分、所述动宾关系成分、所述间宾关系成分、所述状中结构成分和/或所述核心关系成分确定为所述待匹配文本的依存句法核心成分;
所述文本匹配模型包括:特征提取模型和深度网络模型;所述使用文本匹配模型根据所述输入表示向量对多个检索文本进行匹配排序,包括:获取文本数据集、摘要数据集和依存数据集,所述文本数据集包括:查询内容样本、正样本文本和多个负样本文本;使用所述摘要数据集和所述依存数据集对所述特征提取模型进行多任务联合训练,并使用所述文本匹配模型中的深度网络模型预测所述查询内容样本对应的预测匹配文本;计算所述预测匹配文本与所述正样本文本以及所述负样本文本之间的PairWise损失值;计算所述查询内容样本、所述正样本文本和所述多个负样本文本之间的ListWise损失值;根据所述PairWise损失值和所述ListWise损失值对所述文本匹配模型中的深度网络模型进行训练,获得所述文本匹配模型;使用所述特征提取模型提取所述输入表示向量的特征向量;使用所述深度网络模型根据所述特征向量对多个检索文本对应的文本向量进行匹配排序。
2.根据权利要求1所述的方法,其特征在于,在所述使用预先训练的生成式预训练模型作为摘要抽取模型对所述待匹配文本进行摘要抽取之前,还包括:
获取文本数据集和摘要数据集,所述摘要数据集中的摘要文本是对所述文本数据集中的样本文本进行摘要抽取获得的;
使用所述文本数据集和所述摘要数据集对生成式预训练网络进行训练,获得所述生成式预训练模型。
3.根据权利要求1-2任一所述的方法,其特征在于,所述特征提取模型采用Roberta模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国软件评测中心(工业和信息化部软件与集成电路促进中心),未经中国软件评测中心(工业和信息化部软件与集成电路促进中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110622070.0/1.html,转载请声明来源钻瓜专利网。