[发明专利]基于搜索引擎的数据处理方法、装置、电子设备及介质在审
申请号: | 202211441185.0 | 申请日: | 2022-11-17 |
公开(公告)号: | CN115730123A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 刘振;陈卓 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/30;G06F18/23;G06F17/18;G06F16/9535 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黄英杰 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索引擎 数据处理 方法 装置 电子设备 介质 | ||
本申请实施例提供了一种基于搜索引擎的数据处理方法、装置、电子设备及介质,属于数据处理技术领域。该方法包括:基于搜索引擎获取多个用户的用户信息,其中,用户信息包括用户的询问信息以及询问信息的发生时间;根据预设时间规则以及发生时间对询问信息进行划分,得到多个询问集合;对询问集合进行语义空间计算,得到询问集合的矫正倾向值;根据预设漂移值对矫正倾向值进行筛选,得到目标矫正倾向值;根据目标矫正倾向值对搜索引擎进行调整。本申请实施例能够在预设时间内有选择地对用户的询问语句中的语义进行分析,提高数据分析的效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于搜索引擎的数据处理方法、装置、电子设备及介质。
背景技术
随着互联网的发展,基于搜索引擎的数据处理逐渐成为数据处理领域的重要研究分支,其中,最常见的基于搜索引擎的数据处理方法为通过用户搜出的列表进行分析,即,通过用户点击搜索列表的先后顺序、点击次数以及当下热词推荐等方法进行分析,需要跟踪分析大量信息,导致数据处理效率较低,为了解决这一问题,目前,还有一种“用户矫正问句行为捕获”的方法,通过捕捉“用户在较短时间内下发多次语义接近的问句”行为来进行数据分析,由于用户有可能对搜索结果列表不满意,因此用户尝试通过更换同语义的问句来矫正输入,但是在进行行为捕获的方法过程中,经常出现单位时间段不明确、无法确定多个问句的语义信息等情况,从而导致数据分析数据量巨大,分析数据效率低的问题。
发明内容
本申请实施例的主要目的在于提出一种基于搜索引擎的数据处理方法、装置、电子设备及介质,能够在预设时间内有选择地对用户的询问语句中的语义进行分析,提高数据分析的效率。
为实现上述目的,本申请实施例的第一方面提出了一种基于搜索引擎的数据处理方法,所述方法包括:
基于搜索引擎获取多个用户的用户信息,其中,所述用户信息包括用户的询问信息以及所述询问信息的发生时间;
根据预设时间规则以及所述发生时间对所述询问信息进行划分,得到多个询问集合;
对所述询问集合进行语义空间计算,得到所述询问集合的矫正倾向值;
根据预设漂移值对所述矫正倾向值进行筛选,得到目标矫正倾向值;
根据所述目标矫正倾向值对所述搜索引擎进行调整。
在一些实施例,所述预设扩散模型包括文本前端模块,所述根据预设时间规则以及所述发生时间对所述询问信息进行划分,得到多个询问集合,包括:
根据所述发生时间对所述询问信息进行排序,得到发生时间序列;
根据所述预设时间规则对所述发生时间序列进行划分,得到多个时间区间;
对所述时间区间内的全部所述询问信息进行统计,得到多个所述询问集合。
在一些实施例,所述询问集合包括多个语义向量;所述对所述询问集合进行语义空间计算,得到所述询问集合的矫正倾向值,包括:
获取所述询问集合中的多个语义向量;
基于预设距离函数对所述语义向量进行计算,得到所述语义向量的距离参数;
根据聚类分析算法对所述距离参数进行平均计算,得到语义空间值;
根据所述语义空间值以及所述语义向量的数量得到所述询问集合的矫正倾向值。
在一些实施例,所述根据预设漂移值对所述矫正倾向值进行筛选,得到目标矫正倾向值,包括:
根据所述矫正倾向值以及所述发生时间生成倾向曲线;
根据所述预设漂移值对所述倾向曲线进行划分,得到与所述矫正倾向值对应的矫正阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211441185.0/2.html,转载请声明来源钻瓜专利网。