[发明专利]热点内容挖掘的方法、装置、计算机设备及存储介质有效
申请号: | 201710577384.7 | 申请日: | 2017-07-14 |
公开(公告)号: | CN108304371B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 宋阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/253;G06F16/33 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 内容 挖掘 方法 装置 计算机 设备 存储 介质 | ||
1.一种热点内容挖掘的方法,所述方法包括:
分别获取当前窗口期和相应的历史窗口期对应的文本,组成文本集合;
对所述文本集合中的文本进行切词处理,得到候选词集;
计算所述候选词集中的候选词在当前窗口期对应的第一词频和历史窗口期对应的第二词频;其中,词频是指候选词出现的次数与相应窗口的总的候选词数的比例;
根据候选词的第一词频和第二词频确定对应的词热度值,所述第一词频表示所述候选词在所述当前窗口期对应的词频,所述第二词频表示所述候选词在所述历史窗口期对应的词频,包括:获取与所述候选词对应的平滑系数;将所述第一词频与所述平滑系数进行平滑运算得到第一参数值,将所述第二词频与所述平滑系数进行平滑运算得到第二参数值;根据所述第一参数值与所述第二参数值的比值确定与所述候选词对应的词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前候选词;
根据所述当前候选词对应的词热度值计算当前检测文本对应的文本热度值;
根据当前窗口期中各个文本对应的文本热度值筛选热点文本。
2.根据权利要求1所述的方法,其特征在于,所述平滑系数是根据所述候选词在所述当前窗口期和所述历史窗口期出现的次数来确定的。
3.根据权利要求1所述的方法,其特征在于,所述候选词集包括一元候选词集和多元候选词集,所述方法还包括:
计算所述一元候选词集中的一元候选词在当前窗口期对应的一元第一词频和历史窗口期对应的一元第二词频;
计算所述多元候选词集中的多元候选词在当前窗口期对应的多元第一词频和历史窗口期对应的多元第二词频;
根据所述一元候选词的一元第一词频和一元第二词频确定对应的一元词热度值,根据所述多元候选词的多元第一词频和多元第二词频确定对应的多元词热度值;
从当前窗口期获取当前检测文本,获取当前检测文本对应的当前一元候选词和当前多元候选词;
根据当前一元候选词的一元词热度值和当前多元候选词的多元词热度值计算当前检测文本对应的文本热度值。
4.根据权利要求1所述的方法,其特征在于,在根据当前窗口期中各个文本对应的文本热度值筛选热点文本之后还包括:
获取所述热点文本中包含的一元候选词,计算各个一元候选词两两之间的距离;
根据当前一元候选词与热点文本中其它一元候选词之间的距离计算所述当前一元候选词对应的词密度;
根据各个一元候选词对应的词密度和各个一元候选词两两之间的距离将各个一元候选词进行聚类得到词簇,所述词簇用于确定相应的主题事件;
根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件。
5.根据权利要求4所述的方法,其特征在于,在根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤之后还包括:
根据主题事件对应的词簇中各个一元候选词对应的词密度获取所述主题事件的核心词;
根据所述主题事件的核心词的词密度将各个主题事件进行排序。
6.根据权利要求4所述的方法,其特征在于,在根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤之前还包括:
根据各个热点文本之间的相似度进行初步聚类,得到热点文本簇;
所述根据所述词簇对热点文本进行归类,确定所述热点文本所属的主题事件的步骤包括:
根据交互响应数据获取热点文本簇中的主热点文本,根据所述主热点文本对应的一元候选词将所述主热点文本所属的热点文本簇归类到对应的词簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710577384.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据更新方法及装置
- 下一篇:实体提取方法和装置、计算机设备和存储介质
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法