[发明专利]文本类别识别方法及相关设备在审
申请号: | 202110286227.7 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112966110A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 李明凡;周凯捷 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 类别 识别 方法 相关 设备 | ||
本申请公开了一种文本类别识别方法及相关设备,应用于电子设备,方法包括:获取训练样本;采用所述训练样本对预设的待训练文本分类模型进行训练,得到文本分类模型;获取待分类文本,将所述待分类文本输入所述文本分类模型,得到类别预测概率集合,所述类别预测概率集合包括所述待分类样本属于预设文本类别的预测概率;基于所述类别预测概率集合,在所述预设文本类别中确定所述待分类文本属于的目标文本类别。采用本申请实施例有利于提升文本分类的效率。
技术领域
本申请涉及电子技术领域,尤其涉及一种文本类别识别方法及相关设备。
背景技术
随着互联网的发展海量的文本数据不断产生,使文本分类在信息处理中占据着重要的地位。由于文本数据中存在着大量的信息,若不能对这些信息进行快速有效的管理和提取,会造成企业和社会信息技术的重大损失,因此,如何利用有效快速的方法对文本进行识别以实现分类是亟待解决的关键问题。
发明内容
本申请实施例提供一种文本类别识别方法及相关设备,有利于对文本进行快速有效的分类。
第一方面,本申请实施例提供一种文本类别识别方法,所述方法包括:
获取训练样本;
采用所述训练样本对预设的待训练文本分类模型进行训练,得到文本分类模型;
获取待分类文本,将所述待分类文本输入所述文本分类模型,得到类别预测概率集合,所述类别预测概率集合包括所述待分类样本属于预设文本类别的预测概率;
基于所述类别预测概率集合,在所述预设文本类别中确定所述待分类文本属于的目标文本类别。
第二方面,本申请实施例提供一种文本类别识别装置,该装置包括:
第一获取单元,用于获取训练样本;
训练单元,用于采用所述训练样本对预设的待训练文本分类模型进行训练,得到文本分类模型;
第二获取单元,用于获取待分类文本;
输入单元,用于将所述待分类文本输入所述文本分类模型,得到类别预测概率集合,所述类别预测概率集合包括所述待分类样本属于预设文本类别的预测概率;
确定单元,用于基于所述类别预测概率集合,在所述预设文本类别中确定所述待分类文本属于的目标文本类别。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于存储计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,电子设备首先获取训练样本,然后采用训练样本对预设的待训练文本分类模型进行训练,得到文本分类模型,再然后获取待分类文本,将待分类文本输入文本分类模型,得到类别预测概率集合,类别预测概率集合包括所述待分类样本属于预设文本类别的预测概率,最后基于类别预测概率集合,在预设文本类别中确定待分类文本属于的目标文本类别。由于先对待训练文本分类模型进行训练,然后采用训练得到的文本分类模型对文本进行分类,因此有利于快速有效的对文本进行分类。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286227.7/2.html,转载请声明来源钻瓜专利网。