[发明专利]数据处理方法、装置、电子设备以及存储介质在审
| 申请号: | 202010572653.2 | 申请日: | 2020-06-22 |
| 公开(公告)号: | CN111737607A | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 申亚坤 | 申请(专利权)人: | 中国银行股份有限公司 |
| 主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06F16/953 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
| 地址: | 100818 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 以及 存储 介质 | ||
本发明公开了一种数据处理方法、装置、电子设备以及存储介质,获取输入的检索语句包含的至少一个关键词,基于至少一个关键词,获得检索语句与各文本分别对应的第一相关度;获取各文本分别对应的属性信息,基于各属性信息得到各文本分别对应的相关度调整系数,和各文本分别对应的第一相关度,得到各文本分别对应的第二相关度;基于第二相关度对所述各文本进行排序,以得到所述检索语句对应的搜索结果。使得搜索结果中靠前的文本与检索语句的相关程度更大,用户检索一次即可得到自己所需的文本,降低了用户的检索次数,从而降低了搜索引擎的数据处理量。
技术领域
本发明涉及信息检索领域,具体涉及一种数据处理方法、装置、电子设备以及存储介质。
背景技术
随着互联网技术的发展,用户可以在搜索框中输入检索语句,搜索引擎会检索得到包含检索语句中关键词的文本。
目前搜索引擎检索得到的文本并不是用户想要得到的文本,即搜索引擎检索得到的文本与用户输入的检索语句的相关度较低,导致用户需要反复输入检索语句,即反复进行检索,增加了搜索引擎的数据处理量。
发明内容
有鉴于此,本发明提供了一种数据处理方法、装置、服务器以及存储介质,以克服现有技术中检索结果相关度不高的问题。
为实现上述目的,本发明提供如下技术方案:
一种数据处理方法,包括:
获取输入的检索语句包含的至少一个关键词;
基于所述至少一个关键词,获得所述检索语句与各文本分别对应的第一相关度;
其中,一个文本与所述检索语句的第一相关度是指所述至少一个关键词分别位于所述文本的词频与所述至少一个关键词分别对应的重要性调整系数的乘积的和;一个所述关键词位于所述文本的词频是指所述文本包含所述关键词的总数目与所述文本包含的词语的总数目的比值;一个关键词对应的重要性调整系数与所述各文本中包含所述关键词的文本的总数目与所述各文本的总数目的比值成负相关;
获取各文本分别对应的属性信息;
其中,一个文本对应的属性信息至少包括各文本中与所述文本具有上下文关系的至少一个第一文本分别与所述文本之间的文本距离;具有同一上下文关系的两个文本是指所述两个文本分别包含的内容为同一源文本中的不同自然段;具有同一上下文关系的两个文本的文本距离是指所述两个文本位于同一源文本中的自然段间隔;
基于各文本分别对应的属性信息,得到各文本分别对应的相关度调整系数;
基于各文本分别对应的相关度调整系数,以及,各文本分别对应的第一相关度,得到各文本分别对应的第二相关度;
基于所述各文本分别对应的第二相关度,对所述各文本进行排序,以得到所述检索语句对应的搜索结果。
一种数据处理装置,包括:
第一获取模块,用于获取输入的检索语句包含的至少一个关键词;
第二获取模块,用于基于所述至少一个关键词,获得所述检索语句与各文本分别对应的第一相关度;
其中,一个文本与所述检索语句的第一相关度是指所述至少一个关键词分别位于所述文本的词频与所述至少一个关键词分别对应的重要性调整系数的乘积的和;一个所述关键词位于所述文本的词频是指所述文本包含所述关键词的总数目与所述文本包含的词语的总数目的比值;一个关键词对应的重要性调整系数与所述各文本中包含所述关键词的文本的总数目与所述各文本的总数目的比值成负相关;
第三获取模块,用于获取各文本分别对应的属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010572653.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:坐席转接方法及装置
- 下一篇:文本业务处理系统、方法及装置





