[发明专利]事件聚类/脉络构建方法及其相关装置、设备和存储介质在审
| 申请号: | 202111509493.8 | 申请日: | 2021-12-10 |
| 公开(公告)号: | CN114357159A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 赵崇帅;代旭东;顾成敏;周维;李宝善;陈志刚 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 事件 脉络 构建 方法 及其 相关 装置 设备 存储 介质 | ||
1.一种事件聚类方法,其特征在于,所述方法包括:
获取候选文本;
基于所述候选文本中词语的结构特征和语义特征分别抽取所述候选文本的关键词,形成每个所述候选文本的关键词子图;
基于所述关键词子图将所述关键词划分为若干个社区,并根据每个所述候选文本的关键词分别将所述候选文本聚类至所述社区中;
在每个所述社区中,基于所述关键词子图将描述同一事件的所述候选文本聚类到同一事件节点中。
2.根据权利要求1所述的方法,其特征在于,所述基于所述关键词子图将描述同一事件的所述候选文本聚类到同一事件节点中,包括:
将所述关键词子图分别输入文本建模模型中,得到每个所述候选文本的语义向量表示;
将所述语义向量表示满足文本相似性条件的若干个所述候选文本聚类到所述同一事件节点中。
3.根据权利要求2所述的方法,其特征在于,所述文本建模模型为图神经网络模型,所述图神经网络模型包括图自编码器,所述将所述关键词子图分别输入文本建模模型中,得到每个所述候选文本的语义向量表示,包括:
利用所述图自编码器对所述关键词子图进行编码,得到所述语义向量表示;
所述将所述语义向量表示满足文本相似性条件的若干个所述候选文本聚类到所述同一事件节点中,包括:
计算所述语义向量表示的相似度,将所述相似度大于预设阈值的所述候选文本聚类到所述同一事件节点中,或者利用谱聚类方法对所述语义向量表示表征的所述候选文本进行聚类。
4.根据权利要求1所述的方法,其特征在于,所述基于所述候选文本中词语的结构特征和语义特征分别抽取所述候选文本的关键词,形成每个所述候选文本的关键词子图,包括:
基于统计特性的关键词提取方法抽取所述候选文本的关键词,以及利用命名实体识别模型抽取所述候选文本的关键词;
将所述关键词作为所述关键词子图的节点,并将满足共现条件的所述关键词用边连接起来,不满足所述共现条件的所述关键词舍弃,形成所述关键词子图。
5.根据权利要求4所述的方法,其特征在于,所述共现条件为同时包含两个所述关键词的候选文本数量超过预设文本数,且所述同时包含两个所述关键词的候选文本数量与分别包括所述两个关键词的候选文本数量之和的商值超过预设条件概率。
6.根据权利要求1所述的方法,其特征在于,所述基于所述关键词子图将所述关键词划分为若干个社区,并根据每个所述候选文本的关键词分别将所述候选文本聚类至所述社区中,包括:
将包含相同所述关键词的所述关键词子图进行融合,形成关键词簇;
采用社区发现方法对所述关键词簇进行划分,形成所述若干个社区;
计算所述候选文本与所述社区的相关性,分别将所述相关性的最大值对应的所述候选文本添加到对应社区中。
7.根据权利要求6所述的方法,其特征在于,所述社区发现方法包括基于层次聚类的重叠社区发现方法。
8.根据权利要求1所述的方法,其特征在于,所述获取候选文本,包括:
接收用户输入需求;
利用命名实体识别模型对所述用户输入需求进行语义解析,得到索引关键词;
利用所述索引关键词在文本集合中筛选出包含至少一个所述索引关键词的文本作为所述候选文本。
9.一种事件脉络构建方法,其特征在于,利用权利要求1至8任一项所述的事件聚类方法获取事件节点后,所述方法还包括:
对所述事件节点进行结构化显示,构建若干个故事树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111509493.8/1.html,转载请声明来源钻瓜专利网。





