[发明专利]确定热点事件的方法、装置和存储介质以及电子设备有效
申请号: | 201711484349.7 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108228808B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 董超;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/33;G06F16/9535;G06F40/284;G06F40/205 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;张岩龙 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 热点 事件 方法 装置 存储 介质 以及 电子设备 | ||
本公开涉及一种确定热点事件的方法、装置和存储介质以及电子设备,该方法包括:获取预设时间段内的多个待确定文本;获取该预设时间段内的全部待确定文本对应的主题模型,并根据主题模型确定每个待确定文本属于不同主题的第一主题条件概率;主题模型中包括多个主题;根据第一主题条件概率确定全部待确定文本中的每个分词词语的热度权重;根据每个分词词语的热度权重从多个待确定文本中确定热点事件。
技术领域
本公开涉及信息技术领域,具体地,涉及一种确定热点事件的方法、装置和存储介质以及电子设备。
背景技术
随着互联网的迅速普及,网络的社会影响在日趋扩大,用户可以通过门户网站、社交软件、微博、论坛等各种方式去获取新闻信息,并表达自己对新闻信息的观点,这种频繁的交互过程就会在不同用户之间产生一些共同话题,这种共同话题称之为热点事件。
目前,确定热点事件的过程中可以将所有的新闻信息看作成一个集合,通过聚类的方式去将相同类型的新闻信息进行聚合,并分别对同一类型中的新闻信息进行热度排名,并将热度排名靠前的新闻事件作为该类型的热度事件,其中,决定该热度排名的因素可以是访问次数以及评论文本的数量等,由于该热度排名可以通过人工干预(如通过软件或者人工进行刷排名),这样,仅仅根据该热度排名确定热点事件并不准确。
发明内容
为了解决上述问题,本公开提出了一种确定热点事件的方法、装置和存储介质以及电子设备。
根据本公开实施例的第一方面,提供一种确定热点事件的方法,所述方法包括:
获取预设时间段内的多个待确定文本;
获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;
根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;
根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。
可选地,所述获取预设时间段内的全部所述待确定文本对应的主题模型包括:
将所述预设时间段内的每个所述待确定文本进行分词处理得到至少一个分词词语;
通过至少一个所述分词词语训练预设主题模型得到主题模型。
可选地,所述根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重包括:
获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;
根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;
根据所述主题权重确定每个所述分词词语的热度权重。
可选地,所述获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率包括:
确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;
计算同一主题对应的第一主题条件概率的和值得到所述同一主题对应的主题概率;
根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;
根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。
可选地,在所述预设时间段包括一个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:
通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711484349.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像处理方法、系统及存储介质
- 下一篇:一种参数确定方法和装置