[发明专利]分类方法、装置、电子设备及可读存储介质有效
申请号: | 201911420328.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159412B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 方法 装置 电子设备 可读 存储 介质 | ||
本申请实施例提供了一种分类方法、装置、电子设备及可读存储介质。该方法包括:确定待分类文本中所包含的各第一目标对象的第一分类特征词;提取待分类文本的文本特征,以及各第一分类特征词的词特征;将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征,对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。本申请实施例中,在分类时基于文本特征和词特征拼接后得到的组合特征,确定最终的分类结果,相对于仅仅基于待分类文本自身的文本特征来确定分类结果,能够更好地挖掘分类结果的信息,提升特征抽取的准确性,提高了分类的效果。
技术领域
本申请涉及文本分类技术领域,具体而言,本申请涉及一种分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类(Text Classification)是指将文本按照一定的分类体系或标准进行自动分类标记。作为一种经典的自然语言处理任务,文本分类技术已经被广泛应用于已经应用在如情感分析、用户评论挖掘等各类场景中。而随着应用要求的提高,分类的粒度也越来越细化,以情感分析为例,细粒度情感分析,又称属性级情感分析,属于文本情感分析,是在更具体的维度上挖掘评价对象的情感属性,因此分析结果也更有参考意义和价值,其被广泛地应用于电商平台、新闻推荐、社交平台等领域。
现有技术中,文本分类通常是对训练样本人工进行评价要素的标注,然后基于标注后的训练样本进行分类模型训练,并基于训练后的分类模型确定最终的分类结果。但是在实际应用中发现,目前分类模型中对评价要素提取的提取效果都不太理想,导致文本分类结果的准确性都有待提升。
发明内容
本申请的目的提供一种分类方法、装置、电子设备及可读存储介质,以提升文本分类结果的准确性。
第一方面,本申请实施例提供了一种分类方法,该方法包括:
确定待分类文本中所包含的各第一目标对象的第一分类特征词;
提取待分类文本的文本特征,以及各第一分类特征词的词特征;
将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
对于每个第一目标对象,基于第一目标对象所对应的组合特征第一目标对象所对应的分类结果。
第一方面可选的实施例中,待分类文本为句子,提取待分类文本的文本特征,包括:
对待分类文本进行分词处理,并提取待分类文本中各第一分词的词向量,第一分词包括第一目标对象的分词;
将待分类文本中的每个第一分词的词向量分别与第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于各第一分词对应的拼接向量,提取得到待分类文本的文本特征。
第一方面可选的实施例中,确定待分类文本中各第一目标对象的第一分类特征词,包括:
基于类序列规则(Class Sequential Rules,CSR),确定待分类文本中各第一目标对象的第一分类特征词;
其中,类序列规则是基于基准样本文本中的标注序列确定的,标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
第一方面可选的实施例中,基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词,包括:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,得到待分类文本的标注序列;
基于类序列规则和待分类文本的标注序列,确定各第一分类特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911420328.8/2.html,转载请声明来源钻瓜专利网。