[发明专利]一种确定热点事件的方法和相关装置有效

专利信息
申请号: 202011442564.2 申请日: 2020-12-11
公开(公告)号: CN112559745B 公开(公告)日: 2023-01-17
发明(设计)人: 戴瑾;胡加学 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 冯柳伟
地址: 230088 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 热点 事件 方法 相关 装置
【说明书】:

本申请公开了一种确定热点事件的方法和相关装置,该方法包括:对目标领域的多个待挖掘文本进行聚类处理,将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本;计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度;该知识图谱是基于目标领域的历史文本预先构建的,其中一条路径表示一个包括多个扩展语句的事件;判断相似度大于等于预设相似度时,确定该相似度对应的事件为热点事件。通过聚类对目标领域的多个待挖掘文本,计算每个类簇中心对应的待挖掘文本,与基于目标领域的历史文本预先构建的知识图谱中事件的相似度,将较大相似度对应的事件作为热点事件,能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件。

技术领域

本申请涉及数据挖掘技术领域,尤其涉及一种确定热点事件的方法和相关装置。

背景技术

随着网络技术的飞速发展,网络成为信息产生和传播的主要渠道。为了能够从海量的信息中快速获取高质量的、有效的信息,热点事件的自动挖掘技术受到各领域的密切关注;其中,事件预定义为有结构的、有类型的、关联的实体或关系。

目前,在文本场景中,热点事件的自动挖掘是指利用主题模型、聚类等方法处理海量的文本,得到海量的文本所对应的主题信息。但是,该主题信息仅仅是一些主题词或者相关词,而不是上述预定义的事件。即,上述主题模型、聚类等方法无法直接自动挖掘得到热点事件,从而导致热点事件的自动挖掘结果较差。

发明内容

有鉴于此,本申请实施例提供一种确定热点事件的方法和相关装置,能够直接自动挖掘得到热点事件,从而提高热点事件的自动挖掘结果。

第一方面,本申请实施例提供了一种确定热点事件的方法,所述方法包括:

对目标领域的多个待挖掘文本进行聚类处理,确定每个类簇中心对应的待挖掘文本为目标待挖掘文本;

获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度;所述知识图谱是基于所述目标领域的历史文本预先构建的,所述知识图谱中一条路径表示一个事件,所述事件包括多个扩展语句;

若所述相似度大于等于预设相似度,确定所述相似度对应的事件为热点事件。

可选的,所述获得每个所述目标待挖掘文本与所述目标领域的知识图谱中每个事件的相似度,包括:

针对每个所述目标待挖掘文本和每个所述事件,利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度;

对所述目标待挖掘文本与多个所述扩展语句的多个相似度进行均值处理,获得所述目标待挖掘文本与所述事件的相似度。

可选的,所述利用预设相似度算法获得所述目标待挖掘文本与所述事件包括的每个扩展语句的相似度,包括:

针对每个所述目标待挖掘文本和每个所述扩展语句,基于所述目标待挖掘文本的语义向量和所述扩展语句的语义向量,获得所述目标待挖掘文本与所述扩展语句的语义相似度;

基于所述目标待挖掘文本的各个关键词、各个非关键词,所述扩展语句的各个关键词、各个非关键词,以及预设关键词类别权重,获得所述目标待挖掘文本与所述扩展语句的关键词相似度;

基于语义相似度权重和关键词相似度权重,融合所述语义相似度和所述关键词相似度,获得所述目标待挖掘文本与所述扩展语句的相似度。

可选的,所述基于所述目标待挖掘文本的各个关键词、各个非关键词,所述扩展语句的各个关键词、各个非关键词,以及预设关键词类别权重,获得所述目标待挖掘文本与所述扩展语句的关键词相似度,包括:

基于所述目标待挖掘文本的各个关键词、所述扩展语句的各个关键词和所述预设关键词类别权重,获得关键词交集中关键词所属预设关键词类别的加权和,以及关键词并集中关键词所属预设关键词类别的加权和;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011442564.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top