[发明专利]自然对话主题分析方法、装置、电子设备和存储介质在审
申请号: | 202011043378.1 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112148872A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 刁则鸣;夏致昊;周小敏;应鸿晖;石易;黄彦龙;黄晓青;莫凡;耿夏楠;罗海涛;傅强;阿曼太;徐涛;傅昕 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心广东分中心;恒安嘉新(北京)科技股份公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/332;G06F16/33;G06F40/289;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然 对话 主题 分析 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种自然对话主题分析方法、装置、电子设备、及存储介质,方法包括:获取多个自然对话文本,对任一自然对话文本进行切和分词处理得到分词序列;将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;对任一分词序列子集合提取核心关键词;对任一分词序列子集合中任一分词序列,分别计算任意两个核心关键词词序字符串的莱文斯坦距离以获取主题纯度;根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。本实施例的技术方案能够直接根据批量或海量的自然对话分析主题,无需人工参与,能提高主题分析效率。
技术领域
本公开实施例涉及自然语言处理技术领域,具体涉及一种自然对话主题分析方法、装置、电子设备和存储介质。
背景技术
自然对话指的是自然人之间的正常通话行为。在自然对话当中,对话双方主要通过互相来回传递的对方可理解的信息进行意图表达;对话的所有元素通常在连贯地串联起来后(包括上下文关系和整体对话方式),才能完整反应对话意图;此外,对于特定语境的对话,在对话当中往往会用简略的语言表述一些没有直接讲述出来的隐藏含义,对同一事物使用不同的词汇和方式来表达。对话意图抽取是实现自然语言理解,构建对话系统中至关重要的一个环节。
目前业界通常采用topic model的方式进行意图抽取。在海量自然对话背景下,基于当前流行的topic model的意图提取方式需要积累大量的自然对话意图标注语料,这实现起来工程量机器庞大,耗时耗力;同时,在特定场景下,人们会更关注海量自然对话中的稀有话题,topic model的方式下进行的意图分类结果,极可能出现误报或漏报的情况。
发明内容
有鉴于此,本公开实施例提供一种自然对话主题分析方法、装置、电子设备、及存储介质,以提高对自然对话进行主题分析的效率。
本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。
第一方面,本公开实施例提供了一种自然对话主题分析方法,包括:
获取多个自然对话文本,对任一自然对话文本按照对话角色进行切分得到一个或多个对话单元,对任一对话单元的文本内容进行分词处理得到分词序列;
将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合;
对任一分词序列子集合,从所包含的分词中提取文档频率大于指定频率阈值的分词作为核心关键词,以得到该分词序列子集合对应的核心关键词集合;
对任一分词序列子集合中任一分词序列,根据所包含的核心关键词和各核心关键词出现的顺序生成该分词序列对应的核心关键词词序字符串,分别计算任意两个核心关键词词序字符串的莱文斯坦距离;
根据任一分词序列对应的核心关键词词序字符串与所属分词序列子集合中其他分词序列对应的核心关键词词序字符串之间的莱文斯坦距离,确定该分词序列与所属的分词序列子集合的主题相似度,以及根据任一分词序列子集合所包含的各分词序列的主题相似度确定该分词序列子集合的主题纯度;
根据所述分词序列集合所包含的各分词序列子集合的主题纯度和对应的关键词集合,进行分析结果输出。
于一实施例中,将根据所述多个自然对话文本得到的分词序列集合进行聚合分组分成多个分词序列子集合包括:
将所述分词序列集合切分为至少一个初始集合,对任一初始集合通过独立的处理进程执行如下操作:
为该初始集合新建一个分词序列子集合作为已有分词序列子集合,并从该初始集合中取一个分词序列添加到该新建的分词序列子集合;
对该初始集合中任一分词序列,遍历该初始集合的各已有分词序列子集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心广东分中心;恒安嘉新(北京)科技股份公司,未经国家计算机网络与信息安全管理中心广东分中心;恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011043378.1/2.html,转载请声明来源钻瓜专利网。