[发明专利]一种基于聚类算法的上下文挖掘方法、装置和电子设备在审
申请号: | 202010072544.4 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291186A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 胡洪兵;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 上下文 挖掘 方法 装置 电子设备 | ||
本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备,该方法和装置具体为响应用户的挖掘请求,根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含关键词的关键语句,并从通话文本中截取与关键语句直接相连的多个关联语句;对多个关键语句进行无监督聚类处理,得到多个语句聚类;针对每个语句聚类,根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建,用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等,而无需对文本内容一一查看,从而提高了对通话文本分析的效率。
技术领域
本发明涉及语音处理技术领域,特别是涉及一种基于聚类算法的上下文挖掘方法、装置和电子设备。
背景技术
在进行对话文本分析时,如果想了解通话文本的主要内容时只能对文本内容一一查看,而一般应用场景的通话文本数量都极为巨大,从而导致目前对话文本分析的效率较低。
发明内容
有鉴于此,本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备,以提高对通话文本分析的效率。
为了解决上述问题,本发明公开了一种基于聚类算法的上下文挖掘方法,应用于电子设备,所述山下文挖掘方法包括步骤:
响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建。
可选的,所述对多个所述关键语句进行无监督聚类处理,包括:
用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
可选的,所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建,包括:
以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
将于所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
可选的,在所述针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建步骤之前,还包括:
将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。
另外,还提供了一种基于聚类算法的上下文挖掘装置,应用于电子设备,所述山下文挖掘装置包括:
文本筛选模块,被配置为响应用户的挖掘请求,根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选,得到多个包含所述关键词的关键语句,并从所述通话文本中截取与所述关键语句直接相连的多个关联语句;
聚类处理模块,被配置为对多个所述关键语句进行无监督聚类处理,得到多个语句聚类;
构建处理模块,被配置为针对每个所述语句聚类,根据所述关键词和所述关联语句进行上下文构建。
可选的,所述聚类处理模块被配置为用重复二分算法对所述关键语句进行无监督聚类处理,得到所述多个语句聚类。
可选的,所述构建处理模块包括:
语句聚类单元,被配置为以所述关键词所在位置为序,对所述语句聚类内的所有所述关联语句进行聚类处理,得到多个关联语句聚类;
构建执行单元,被配置为将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010072544.4/2.html,转载请声明来源钻瓜专利网。