[发明专利]周期词挖掘方法、系统、电子设备及可读存储介质在审
申请号: | 201810738295.0 | 申请日: | 2018-07-06 |
公开(公告)号: | CN110688846A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 邝秋鸿;邵荣防;郝晖;欧阳硕;谢群群;刘儒君 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06Q30/06 |
代理公司: | 31283 上海弼兴律师事务所 | 代理人: | 薛琦;罗朗 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索关键词 周期特征 预设 检索 预设时间段 检索数据 特征标签 标签库 时间段 相似度 挖掘 标签 可读存储介质 电子设备 方法使用 用户习惯 存储 检测 灵活 | ||
本发明公开了一种周期词挖掘方法、系统、电子设备及可读存储介质,周期词挖掘方法包括:获取一预设时间段内所有用户的检索数据,检索数据包括多个检索关键词和每个关键词的检索时间;对每个检索关键词检测检索关键词是否具有热搜时间段,检索关键词在热搜时间段内的检索次数达到在预设时间段内的检索总次数的预设百分比;若包含,生成检索关键词的特征标签;预设一周期特征标签库,周期特征标签库存储有多个周期特征标签;计算特征标签与每个周期特征标签的相似度;判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认检索关键词为周期词。本发明的周期词挖掘方法使用灵活,数据成本低,符合用户习惯,且有较高的准确性。
技术领域
本发明属于信息处理技术领域,尤其涉及一种周期词挖掘方法、系统、电子设备及可读存储介质。
背景技术
周期词是指在搜索引擎中用户随着季节、时令变化而搜索量周期性变化的周期词。电商行业中的周期词可以被用于用户需求监测,指导运营、采销人员根据用户在周期中的需求进行文案运营、采购等操作;也可以对外展示,吸引更多有类似需求的用户购买这些周期热点商品。
周期词的挖掘中,一般使用过去几年的用户搜索行为历史数据变化情况作为是否是周期词的依据,但在某些情况下往年数据缺失,数据不足两个或两个以上周期时,现有的挖掘算法会失效,完全无法从数据中挖掘出周期属性。
发明内容
本发明要解决的技术问题是为了克服现有技术中缺失往年数据时无法有效挖掘周期属性的缺陷,提供一种周期词挖掘方法、系统、电子设备及可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种周期词挖掘方法,所述周期词挖掘方法包括:
获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
对每个所述检索关键词检测所述检索关键词是否具有热搜时间段,所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
若包含,生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
预设一周期特征标签库,所述周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
计算所述特征标签与每个所述周期特征标签的相似度;
判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
较佳地,所述检测所述检索关键词是否包含热搜时间段的步骤之前,所述周期词挖掘方法还包括:
将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述检测所述检索关键词是否包含热搜时间段的步骤具体包括:
按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比;
判断所述若干单位时段是否为连续时间段。
较佳地,所述统计每个所述单位时段内所述检索关键词的单位检索次数的步骤之后,所述周期词挖掘方法还包括:
任意选取一目标单位时段;
判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810738295.0/2.html,转载请声明来源钻瓜专利网。