[发明专利]相关性模型训练方法、排序方法、装置、电子设备及介质在审
| 申请号: | 202011402049.1 | 申请日: | 2020-12-02 |
| 公开(公告)号: | CN114595800A | 公开(公告)日: | 2022-06-07 |
| 发明(设计)人: | 沈炎军;董国盛;周泽南;陈炜鹏;许静芳 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F16/9538;G06F16/953 |
| 代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相关性 模型 训练 方法 排序 装置 电子设备 介质 | ||
1.一种相关性模型训练方法,其特征在于,包括:
根据用户历史查询数据,获取训练数据集,其中,所述训练数据集包括正样本数据集和负样本数据集,所述训练数据集中的每个训练数据包括查询词和网络站点,其中,所述网络站点从所述查询词对应的结果网页中提取;
针对所述训练数据集中的每个训练数据,将训练数据中查询词的词向量映射到卷积神经网络中的嵌入层中,得到训练数据中查询词的映射词向量;获取训练数据中网络站点的站点特征向量;根据映射词向量和站点特征向量,获取训练数据中查询词与网络站点的相关值;
基于每个训练数据中查询词与网络站点的相关值,得到所述相关性模型,其中,所述相关性模型为端到端模型。
2.如权利要求1所述的训练方法,其特征在于,所述根据用户历史查询数据,获取训练数据集,包括:
从用户历史查询数据中获取正样本对,基于获取的所述正样本对,获取所述正样本数据集;
使用word2vec负采样方式对所述用户历史查询数据进行负采样,获取负样本对;
基于获取的所述负样本对,获取所述负样本数据集;
基于所述正样本数据集和所述负样本数据集,获取所述训练数据集。
3.如权利要求2所述的训练方法,其特征在于,所述使用word2vec负采样方式对所述用户历史查询数据进行负采样,获取负样本对,包括:
使用word2vec中的负采样概率公式对所述用户历史查询数据进行负采样,获取所述负样本对,其中,所述负采样概率公式中的超参数的值位于设定取值范围内。
4.如权利要求1所述的训练方法,其特征在于,所述将训练数据中查询词的词向量映射到卷积神经网络中的嵌入层中,得到训练数据中查询词的映射词向量,包括:
采用预训练模型和卷积神经网络将查询词的词向量映射到词嵌入层中,得到查询词的映射词向量。
5.如权利要求1所述的训练方法,其特征在于,所述深基于每个训练数据中查询词与网络站点的相关值,获取所述相关性模型过程中,所述方法包括:
使用对数损失函数和间隔距离方法对所述相关性模型的参数进行调整。
6.一种网络站点排序方法,其特征在于,包括:
实时获取用户输入的当前查询词;
将所述当前查询词的词向量输入到如权利要求1-5任一项所述的相关性模型中,获取所述当前查询词与网络站点集中每个网络站点的相关值;
基于所述当前查询词与每个网络站点的相关值,对所述当前查询词对应的网络站点进行排序。
7.一种相关性模型训练装置,其特征在于,包括:
训练数据获取单元,用于根据用户历史查询数据,获取训练数据集,其中,所述训练数据集包括正样本数据集和负样本数据集,所述训练数据集中的每个训练数据包括查询词和网络站点,其中,所述网络站点从所述查询词对应的结果网页中提取;
训练单元,用于针对所述训练数据集中的每个训练数据,将训练数据中查询词的词向量映射到卷积神经网络中的嵌入层中,得到训练数据中查询词的映射词向量;获取训练数据中网络站点的站点特征向量;根据映射词向量和站点特征向量,获取训练数据中查询词与网络站点的相关值;
模型获取单元,用于基于每个训练数据中查询词与网络站点的相关值,得到所述相关性模型,其中,所述相关性模型为端到端模型。
8.一种网络站点排序装置,其特征在于,包括:
查询词获取单元,用于实时获取用户输入的当前查询词;
相关值获取单元,用于将所述当前查询词的词向量输入到如权利要求1-5任一项所述的相关性模型中,获取所述当前查询词与网络站点集中每个网络站点的相关值;
排序单元,用于基于所述当前查询词与每个网络站点的相关值,对所述当前查询词对应的网络站点进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011402049.1/1.html,转载请声明来源钻瓜专利网。





