[发明专利]一种数据处理方法、装置和电子设备在审
申请号: | 201811496044.2 | 申请日: | 2018-12-07 |
公开(公告)号: | CN111291069A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 沈炎军;贺宇;董国盛;马超;应蕾;孟莹;黄晓烽;周泽南;苏雪峰 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/24 | 分类号: | G06F16/24;G06F16/31;G06F16/335 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。
背景技术
随着互联网技术的不断发展,以及搜索引擎的技术的发展,用户可以通过搜索平台进行信息查询,例如查询某个词的读音、含义,某个人物简介,某个问题的答案等等。
其中,互联网技术的发展使得互联网上的信息也呈现爆炸性的发展,这使得从大量数据中搜索较为准确的结果难度大大增加;例如在进行法律信息搜索时,从大量的数据中筛选出匹配度高的结果。目前包括两类用于法律信息搜索的方法,一种是设置法律结构树,但是这需要用户分辨法律节点才能进入对应法律节点查询相关文档;另一种是通过问答交互的方式解答用户疑问,但是这需要用户进行多轮的回复才能查询到相关文档;可见现有技术的这两种方法,用户操作繁琐,搜索效率低。
发明内容
本发明实施例提供一种数据处理方法,以提高搜索效率及搜索准确率。
相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811496044.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种丁基胶的卷绕设备
- 下一篇:电源控制方法与使用此方法的电子装置