[发明专利]一种文本分类方法、设备及计算机可读存储介质在审
申请号: | 202010463968.3 | 申请日: | 2020-05-27 |
公开(公告)号: | CN113742477A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/335 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 设备 计算机 可读 存储 介质 | ||
本发明提供了一种文本分类方法、设备及计算机可读存储介质;该方法包括:获取待分类文本;对待分类文本进行特征提取,得到至少一个待分类关键特征,以及至少一个待分类关键特征的每个待分类关键特征对应的至少一个上下文特征;将至少一个待分类关键特征与各个类别的预设关键特征进行匹配,得到每个待分类关键特征对应的初始类别;针对每个待分类关键特征,依据各个类别的预设样本特征库和初始类别,确定至少一个上下文特征中的每个上下文特征的命中情况;基于每个上下文特征的命中情况,确定每个待分类关键特征的分类权重;基于每个待分类关键特征的分类权重,确定待分类文本的类别。通过本发明,能够提高文本分类的准确度。
技术领域
本发明涉及云计算领域中的大数据技术,尤其涉及一种文本分类方法、设备及计算机可读存储介质。
背景技术
当用户利用线上支付,在电商平台上付款,以进行购物、点餐等操作时,线上支付应用中也会留存下用户所消费的商户的文本信息,例如,某奶茶店的名称等。线上支付应用中所留存的商户的文本信息日渐增多,对这些商户的文本信息进行挖掘、分类,能够得到用户所消费的商户的类别,从而便于分析用户的消费偏好,以及分析商户的营业风险等。
相关技术中,在对商户的文本信息分类时,大多是利用关键词匹配,得到商户的文本信息的类别,或者是利用构造好的文本分类模型,直接对商户的文本信息进行预测,得到文本信息的类别,从而得到商户的类别。然而,文本分类模型大多也是基于关键词实现的,因此关键词匹配和文本分类模型,都有赖于关键词中的有效信息,而关键词中所包含的有效信息有限,会使得文本分类的准确度较低。
发明内容
本发明实施例提供一种文本分类方法、设备及计算机可读存储介质,能够提高文本分类的准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种文本分类方法,包括:
获取待分类文本;
对所述待分类文本进行特征提取,得到至少一个待分类关键特征,以及所述至少一个待分类关键特征的每个待分类关键特征对应的至少一个上下文特征;
将所述至少一个待分类关键特征与各个类别的预设关键特征进行匹配,得到所述每个待分类关键特征对应的初始类别;
针对所述每个待分类关键特征,依据所述各个类别的预设样本特征库和所述初始类别,确定所述至少一个上下文特征中的每个上下文特征的命中情况;所述预设样本特征库中包含极性相反的特征库;
基于所述每个上下文特征的命中情况,确定所述每个待分类关键特征的分类权重;
基于所述每个待分类关键特征的分类权重,确定所述述待分类文本的类别。
本发明实施例提供一种文本分类设备,包括:
存储器,用于存储可执行文本分类指令;
处理器,用于执行所述存储器中存储的可执行文本分类指令时,实现本发明实施例提供的文本分类方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行文本分类指令,用于引起处理器执行时,实现本发明实施例提供的文本分类方法。
本发明实施例具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463968.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于零件设计的自动化出图方法
- 下一篇:一种抗菌聚氨酯弹性体及其制备方法