[发明专利]基于搜索日志的事件发现方法及装置有效
申请号: | 201711163308.8 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107832444B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 陈玉光;沈剑平;陈伟娜;赵斌文;陈奇石 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9532;G06F16/36;G06F16/33;G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索 日志 事件 发现 方法 装置 | ||
本发明提出一种基于搜索日志的事件发现方法及装置,其中方法包括:获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果;根据新增搜索词,查询预设的实体词典,获取新增搜索词中包括的实体;对包括实体的新增搜索词进行统计,判断是否存在突发搜索词;若存在,则根据突发搜索词及其搜索结果,确定突发搜索词的特征;将突发搜索词的特征,与突发搜索词所包括的实体对应的至少一个事件中各个搜索词的特征进行匹配,确定是否存在新事件,事件中包括:类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息;从而能够在有新的数据产生时,及时进行事件发现,提高了事件发现效率,缩短了事件发现时间。
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于搜索日志的事件发现方法及装置。
背景技术
目前,互联网上的信息呈爆发式的增长,当用户想要关注某个人物或者公司相关的事件时,用户不得不面对大量未经整理的新闻资讯,花费大量的时间从未经整理的新闻资讯中获取某个人物或者公司相关的事件及其进展。
现有技术中,可以通过采用聚类或者波峰检测等方式,从大量未经整理的新闻资讯中提取与人物或者公司相关的事件,提供给用户。然而现有技术中,聚类以及波峰检测等方式,需要基于全量数据进行事件发现,当有新的数据产生时,需要将新的数据合入源数据后重新进行事件发现,降低了事件发现效率,延长了事件发现时间。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于搜索日志的事件发现方法,用于解决现有技术中事件发现效率差,时间长的问题。
本发明的第二个目的在于提出一种基于搜索日志的事件发现装置。
本发明的第三个目的在于提出另一种基于搜索日志的事件发现装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于搜索日志的事件发现方法,包括:
获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果;
根据所述新增搜索词,查询预设的实体词典,获取所述新增搜索词中包括的实体;
对所述搜索日志中包括实体的新增搜索词进行统计,判断所述新增搜索词中是否存在突发搜索词;所述突发搜索词为对应的搜索频率大于第一频率阈值的新增搜索词;
若所述新增搜索词中存在突发搜索词,则根据所述突发搜索词以及对应的搜索结果,确定所述突发搜索词的特征;
根据所述突发搜索词中包括的实体,获取预存的与所述实体对应的至少一个事件;所述事件中包括:类簇中的各个搜索词、所述各个搜索词的特征、以及所述类簇的描述信息;
将所述突发搜索词的特征,与所述至少一个事件中各个搜索词的特征进行匹配,确定是否存在新事件。
进一步的,所述将所述突发搜索词的特征,与所述至少一个事件中各个搜索词的特征进行匹配,确定是否存在新事件,包括:
将所述突发搜索词的特征,与所述至少一个事件中各个搜索词的特征进行匹配,判断是否存在与所述突发搜索词匹配的搜索词;
若不存在与所述突发搜索词匹配的搜索词,则创建新类簇,将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中,并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息,得到新事件。
进一步的,所述将所述突发搜索词的特征,与所述至少一个事件中各个搜索词的特征进行匹配,判断是否存在与所述突发搜索词匹配的搜索词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711163308.8/2.html,转载请声明来源钻瓜专利网。