[发明专利]文本聚类方法、装置、处理设备及存储介质有效
申请号: | 202110238054.1 | 申请日: | 2021-03-04 |
公开(公告)号: | CN112966104B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 浦嘉澍;毛晓曦;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 处理 设备 存储 介质 | ||
本发明提供一种文本聚类方法、装置、处理设备及存储介质,涉及数据处理技术领域。包括:采用预设的多个语言模型中每个语言模型对待处理文本进行识别,得到文本特征,不同语言模型为预先采用基于样本对话文本得到的不同特征学习文本数据进行训练得到的文本特征识别模型;采用每个语言模型对应的聚类算法对每个语言模型输出的文本特征聚类,得到聚类结果;对多个聚类结果融合,得到待处理文本的目标聚类结果。基于多个语言模型对待处理文本进行识别得到多个文本特征,使得识别的待处理文本的文本特征更加准确;继而采对应的聚类算法对文本特征聚类,得到多个聚类结果,对多个聚类结果融合获取目标聚类结果,也提高了聚类结果的准确性。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种文本聚类方法、装置、处理设备及存储介质。
背景技术
自动对话在许多的行业和领域得到广泛的应用。自动对话主要依赖于自然语言理解系统,基于自然语言理解系统的自动对话需要设置预设意图,因此,对于预设意图的获取也变得越来越重要。
相关技术中,采用一个识别模型对文本进行识别获取识别结果,对识别结果进行聚类分析得到具有聚类结果,对聚类结果进行标注可以得到对话意图。
但是,相关技术中,采用一个识别模型获取识别结果,在待识别文本的数据量较少时,容易出现识别结果不准确的问题,从而导致聚类结果不准确的问题。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文本聚类方法、装置、处理设备及存储介质,以便解决相关技术中,采用一个识别模型获取识别结果,在待识别文本的数据量较少时,容易出现识别结果不准确的问题,从而导致聚类结果不准确的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文本聚类方法,包括:
采用预设的多个语言模型中每个语言模型对待处理文本进行识别,得到文本特征,不同语言模型为预先采用基于样本对话文本得到的不同特征学习文本数据进行训练得到的文本特征识别模型;
采用所述每个语言模型对应的聚类算法对所述每个语言模型输出的文本特征进行聚类,得到聚类结果;
对多个聚类结果进行融合,得到所述待处理文本的目标聚类结果。
可选的,在所述采用预设的多个语言模型中每个语言模型对待处理文本进行识别,得到文本特征之前,所述方法还包括:
从样本对话文本中获取多个特征学习文本数据;
分别根据所述多个特征学习文本数据进行模型训练,得到所述多个语言模型。
可选的,所述从样本对话文本中获取多个特征学习文本数据,包括:
从所述样本对话文本中获取所述多个特征学习文本数据,以及所述每个特征学习文本数据对应的超参学习文本数据;
所述采用所述每个语言模型对应的聚类算法对所述每个语言模型输出的文本特征进行聚类,得到聚类结果之前,所述方法还包括:
采用所述每个语言模型,对训练所述每个语言模型采用的特征学习文本数据对应的超参学习文本数据进行识别,得到超参特征;
从所述超参特征中搜索目标超参数;
根据所述目标超参数,对预设的聚类算法中对应的超参数进行更新,得到所述每个语言模型对应的聚类算法。
可选的,所述从所述样本对话文本中获取所述多个特征学习文本数据,以及所述每个特征学习文本数据对应的超参学习文本数据,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110238054.1/2.html,转载请声明来源钻瓜专利网。