[发明专利]文本处理方法、相关设备、存储介质及计算机程序产品在审
申请号: | 202111344591.0 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114328909A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 铁瑞雪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/205;G06K9/62;G06N3/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 设备 存储 介质 计算机 程序 产品 | ||
本申请实施例公开了一种文本处理方法、相关设备、存储介质及计算机程序产品,其中方法包括:获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;对所述句法结构特征、文本特征及所述结构化特征进行特征融合处理,得到融合特征;基于所述融合特征对所述待处理文本进行文本分类,可以提升文本分类的准确度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、相关设备、存储介质及计算机程序产品。
背景技术
计算机技术的迅猛发展使得计算机设备能够对文本数据进行多样化的文本处理,如对文本数据进行语义识别、文本分类、以及根据文本数据进行情感识别等。目前在对文本数据进行处理时,通常是从文本数据本身出发的,比如:调用用于文本分类或者文本识别的深度学习模型提取文本数据的整体表征,然后基于文本数据的整体表征进行文本分类、语义识别等处理。但是,从文本本身出发提取到的整体特征在信息表达上比较有限,从而可能影响文本处理结果(如:文本分类)的准确性。因此,如何提升文本分类的准确度成了当前的研究热点。
发明内容
本申请实施例提供了一种文本处理方法、相关设备、存储介质及计算机程序产品,可提升文本分类的准确度。
一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
基于融合特征对待处理文本进行文本分类。
一方面,本申请实施例提供了一种文本处理装置,包括:
获取单元,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
处理单元,用于对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
分类单元,用于基于融合特征对待处理文本进行文本分类。
在一种实施方式中,待处理文本包括一个或多个文本字符,获取单元具体用于执行:
采用文本分类模型对待处理文本进行句法结构分析,得到每个文本字符的依存角色;
获取每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成待处理文本的句法结构特征。
在又一种实施方式中,结构化数据包括一个或多个数据对象;获取单元还具体用于执行:
调用文本分类模型对结构化数据中每个数据对象进行预处理,得到每个数据对象的对象特征;
基于每个数据对象的对象特征以及特征向量化规则,对每个数据对象进行向量化处理,得到每个数据对象对应的特征向量;
基于每个数据对象对应的特征向量进行预设运算,得到结构化数据的结构化特征。
在又一种实施方式中,文本分类模型包括文本特征提取网络,获取单元还具体用于执行:
调用文本特征提取网络分别对待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到待处理文本对应词法特征、句法特征以及语义特征;
基于待处理文本对应的词法特征、句法特征以及语义特征,确定待处理文本的文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111344591.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矿用运输车
- 下一篇:一种医用药液过滤设备