[发明专利]相关性模型训练方法、排序方法、装置、电子设备及介质在审

申请号：	202011402049.1	申请日：	2020-12-02
公开（公告）号：	CN114595800A	公开（公告）日：	2022-06-07
发明（设计）人：	沈炎军;董国盛;周泽南;陈炜鹏;许静芳	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F16/9538;G06F16/953
代理公司：	北京华沛德权律师事务所 11302	代理人：	房德权
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	相关性模型训练方法排序装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种相关性模型训练方法，根据用户历史查询数据，获取训练数据集；针对所述训练数据集中的每个训练数据，将训练数据中查询词的词向量映射到卷积神经网络中的嵌入层中，得到训练数据中查询词的映射词向量；获取训练数据中网络站点的站点特征向量；根据映射词向量和站点特征向量，获取训练数据中查询词与网络站点的相关值；基于每个训练数据中查询词与网络站点的相关值，得到所述相关性模型。本发明实施例提供的相关性模型训练方法，能够提高获取的与查询词对应的网络站点的准确度。

技术领域

本本发明实施例涉及互联网技术领域，尤其涉及一种相关性模型训练方法、排序方法、装置、电子设备及介质。

背景技术

随着互联网技术的飞速发展，搜索引擎技术已日趋成熟，在搜索引擎中输入查询词，即可得到与查询词相关的网络站点。

现有技术中在根据查询词获取相关的网络站点时，通常使用基于图模型来获取查询词与网络站点的相关性，但是在使用图模型获取查询词与网络站点的相关性过程中，通常会有图模型中未存在的词即未登陆词，此时，需要对未登陆词进行二次处理后才能得到的查询词与网络站点的相关性，但是图模型并未对未登陆词进行训练，导致查询词与对应的网络站点的准确度较低。

发明内容

本发明实施例提供了一种相关性模型训练方法、排序方法、装置、电子设备及介质，能够提高获取与查询词对应的网络站点的准确度。

本发明实施例第一方面提供了一种相关性模型训练方法，包括：

根据用户历史查询数据，获取训练数据集，其中，所述训练数据集包括正样本数据集和负样本数据集，所述训练数据集中的每个训练数据包括查询词和网络站点，其中，所述网络站点从所述查询词对应的结果网页中提取；

针对所述训练数据集中的每个训练数据，将训练数据中查询词的词向量映射到卷积神经网络中的嵌入层中，得到训练数据中查询词的映射词向量；获取训练数据中网络站点的站点特征向量；根据映射词向量和站点特征向量，获取训练数据中查询词与网络站点的相关值；

基于每个训练数据中查询词与网络站点的相关值，得到所述相关性模型，其中，所述相关性模型为端到端模型。

可选的，所述根据用户历史查询数据，获取训练数据集，包括：

从用户历史查询数据中查找到正样本对，基于查找到的所述正样本对，获取所述正样本数据集；

使用word2vec负采样方式对所述用户历史查询数据进行负采样，获取负样本对；基于获取的所述负样本对，获取所述负样本数据集；

基于所述正样本数据集和所述负样本数据集，获取所述训练数据集。

可选的，所述使用word2vec负采样方式对所述用户历史查询数据进行负采样，获取负样本对，包括：

使用word2vec中的负采样概率公式对所述用户历史查询数据进行负采样，获取所述负样本对，其中，所述负采样概率公式中的超参数的值位于设定取值范围内。