[发明专利]一种基于聚类算法的上下文挖掘方法、装置和电子设备在审

申请号：	202010072544.4	申请日：	2020-01-21
公开（公告）号：	CN111291186A	公开（公告）日：	2020-06-16
发明（设计）人：	胡洪兵;李健;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于算法上下文挖掘方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备，该方法和装置具体为响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

技术领域

本发明涉及语音处理技术领域，特别是涉及一种基于聚类算法的上下文挖掘方法、装置和电子设备。

背景技术

在进行对话文本分析时，如果想了解通话文本的主要内容时只能对文本内容一一查看，而一般应用场景的通话文本数量都极为巨大，从而导致目前对话文本分析的效率较低。

发明内容

有鉴于此，本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备，以提高对通话文本分析的效率。

为了解决上述问题，本发明公开了一种基于聚类算法的上下文挖掘方法，应用于电子设备，所述山下文挖掘方法包括步骤：

响应用户的挖掘请求，根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含所述关键词的关键语句，并从所述通话文本中截取与所述关键语句直接相连的多个关联语句；

对多个所述关键语句进行无监督聚类处理，得到多个语句聚类；

针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建。

可选的，所述对多个所述关键语句进行无监督聚类处理，包括：

用重复二分算法对所述关键语句进行无监督聚类处理，得到所述多个语句聚类。