[发明专利]站点资源挖掘方法、装置以及电子设备有效
申请号: | 201911157986.2 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110889020B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 马丽芬;孟浩 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/953 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 徐瑞红;阎敏 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 站点 资源 挖掘 方法 装置 以及 电子设备 | ||
本申请公开了一种站点资源挖掘方法、装置以及电子设备,涉及资源挖掘领域。具体实现方案为:对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;获取同一检索意图下的至少一个待选站点,以及各待选站点的分数;根据各待选站点的分数选择符合检索意图的待选站点。通过选取同一检索意图下的至少一个待选站点,根据各个待选站点的分数,筛选符合检索意图的站点。针对某一检索意图的站点进行挖掘,提高了符合检索意图的站点挖掘的准确率,降低了资源挖掘工作量。
技术领域
本申请涉及一种大数据领域,尤其涉及一种资源挖掘领域。
背景技术
用户点击资源,可能是用户被展示的局部信息吸引,而进入查看内容,并不能说明此资源符合用户的搜索目的。不是资源点击量越高,用户需求满足的就越好。目前筛选符合检索目的的资源的方式,通常都是基于用户点击等行为特征来筛选符合检索目的的资源。然而,用户对资源的点击量越大,资源就是符合检索目的的资源,这种仅仅通过点击量来挖掘的资源并不一定是真正符合用户检索目的的资源。
发明内容
本申请实施例提供一种站点资源挖掘方法、装置以及电子设备,以解决现有技术中的一个或多个技术问题。
在第一方面,本申请实施例提供了一种站点资源挖掘方法,包括:…
对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
获取同一检索意图下的至少一个待选站点,以及各待选站点的分数;
根据各待选站点的分数选择符合检索意图的待选站点。
在本实施方式中,通过选取同一检索意图下的至少一个待选站点,根据各个待选站点的分数,筛选符合检索意图的站点。针对某一检索意图的站点进行挖掘,提高了符合检索意图的站点挖掘的准确率,降低了资源挖掘工作量。
在一种实施方式中,对多个检索表达进行聚类,每类检索表达各自对应同一检索意图,包括:
根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
利用时间滑动窗口作用于检索行为时间向量,确定检索意图的持续时间;
根据检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图。
在本实施方式中,利用时间滑动窗口确定检索意图的持续时间,根据检索意图的持续时间对检索表达聚类,能够加快聚类速度,提高聚类的精确度。
在一种实施方式中,获取同一检索意图下的至少一个待选站点,包括:
获取同一检索意图下的多个站点,以及各站点的切换时间;
筛选出切换时间大于切换时间阈值的站点,得到有效站点;
有效站点的被点击的时间点大于同一检索意图的持续时间内的时间点阈值,且有效站点的切换时间大于切换时间均值的情况下,确定有效站点为同一检索意图下的待选站点。
在本实施方式中,通过对用户在检索过程中涉及的各个站点进行初步筛选,得到同一检索意图下的有效站点,并且在有效站点中确定出同一检索意图下的待选站点,能够有效避免无效站点对同一检索意图下的待选站点的确定有不好的影响,提高确定同一检索意图下的待选站点的准确率。
在一种实施方式中,获取各待选站点的分数,包括:
获取待选站点的投票数,作为绝对分数;
计算待选站点的投票数和同一检索意图的投票数的比值,得到相对分数;
其中,待选站点的第一分数包括绝对分数和相对分数中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911157986.2/2.html,转载请声明来源钻瓜专利网。