[发明专利]一种数据处理方法、装置和电子设备在审

专利信息
申请号: 201811496044.2 申请日: 2018-12-07
公开(公告)号: CN111291069A 公开(公告)日: 2020-06-16
发明(设计)人: 沈炎军;贺宇;董国盛;马超;应蕾;孟莹;黄晓烽;周泽南;苏雪峰 申请(专利权)人: 北京搜狗科技发展有限公司
主分类号: G06F16/24 分类号: G06F16/24;G06F16/31;G06F16/335
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 莎日娜
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 装置 电子设备
【说明书】:

发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。

技术领域

本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。

背景技术

随着互联网技术的不断发展,以及搜索引擎的技术的发展,用户可以通过搜索平台进行信息查询,例如查询某个词的读音、含义,某个人物简介,某个问题的答案等等。

其中,互联网技术的发展使得互联网上的信息也呈现爆炸性的发展,这使得从大量数据中搜索较为准确的结果难度大大增加;例如在进行法律信息搜索时,从大量的数据中筛选出匹配度高的结果。目前包括两类用于法律信息搜索的方法,一种是设置法律结构树,但是这需要用户分辨法律节点才能进入对应法律节点查询相关文档;另一种是通过问答交互的方式解答用户疑问,但是这需要用户进行多轮的回复才能查询到相关文档;可见现有技术的这两种方法,用户操作繁琐,搜索效率低。

发明内容

本发明实施例提供一种数据处理方法,以提高搜索效率及搜索准确率。

相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。

为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。

可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。

可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。

可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。

可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。

可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811496044.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top