[发明专利]一种数据处理方法、装置和电子设备在审
申请号: | 201811496044.2 | 申请日: | 2018-12-07 |
公开(公告)号: | CN111291069A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 沈炎军;贺宇;董国盛;马超;应蕾;孟莹;黄晓烽;周泽南;苏雪峰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/24 | 分类号: | G06F16/24;G06F16/31;G06F16/335 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
1.一种数据处理方法,其特征在于,包括:
接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:
对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;
基于所述关键词查找倒排索引,确定对应的多个文档标识;
从数据库中召回所述文档标识匹配的搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:
针对一个搜索结果,确定所述搜索结果对应网页内容的标题;
对所述标题进行分词处理,确定所述标题对应的关键词;
依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;
依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
4.根据权利要求1所述的方法,其特征在于,所述依据所述文本相似度对所述搜索结果进行筛选,包括:
选取文本相似度最高的前N个搜索结果;其中,N为正整数。
5.根据权利要求1所述的方法,其特征在于,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:
采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;
依据所述余弦距离,对所述筛选后的搜索结果进行排序;
其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
6.根据权利要求5所述的方法,其特征在于,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:
针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;
将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
7.根据权利要求1所述的方法,其特征在于,所述的方法还包括训练所述深度语义匹配模型的步骤:
收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;
将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;
依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
8.一种数据处理装置,其特征在于,包括:
召回模块,用于接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
筛选模块,用于分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
排序模块,用于依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
9.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的数据处理方法。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811496044.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种丁基胶的卷绕设备
- 下一篇:电源控制方法与使用此方法的电子装置