[发明专利]文本处理方法、装置、设备及计算机可读存储介质有效
申请号: | 201911239505.2 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111078878B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 石逸轩;戴明洋;潘剑飞;周俊;罗程亮;许金泉;姚远 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 胡艾青;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 计算机 可读 存储 介质 | ||
本公开公开了文本处理方法、装置、设备及计算机可读存储介质,涉及文本处理领域。具体实现方案为:获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。
技术领域
本公开涉及数据处理领域,尤其涉及一种文本处理技术。
背景技术
在针对用户产生内容进行分析的时候,常常会遇到一类问题,需要对用户产出的文本内容进行层次主题分类。实际应用中,许多业务场景中都会应用这一任务,如贴子分类、问题回答、广告投放、搜索结果组织等。
为了实现对内容数据的分类,现有技术中一般都是预先构建一分类树状结构,针对树状结构的叶子节点,分别构建不同的分类模型,采用每个分类模型对内容数据进行分类。
但是,用户产出的文本内容一般与自然语言有较大的差别,所使用的语言较为随意,Out Of Vocab现象较严重,因此,较为依赖于用户信息。故在采用上述方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。
发明内容
本公开提供一种文本处理方法、装置、设备及计算机可读存储介质,用于解决现有的文本处理方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。
第一方面,本公开实施例提供一种文本处理方法,包括:
获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;
根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;
采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;
通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。
本实施例提供的文本处理方法,通过在特征提取过程中,添加用于表征用户发表文本信息时的惯用特征的用户特征,从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。
在一种可能的设计中,所述获取终端设备输入的待分类数据之后,还包括:
对所述待分类文本进行分词、去除标点符号以及编码化处理,获得预处理后的待分类文本;
相应地,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
对所述预处理后的待分类文本以及所述用户特征进行向量化处理。
本实施例提供的文本处理方法,通过在特征提取过程中,添加用于表征用户发表文本信息时的惯用特征的用户特征,从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。
在一种可能的设计中,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
通过Embedding对所述待分类文本以及所述用户特征进行向量化处理。
本实施例提供的文本处理方法,通过采用Embedding的方式对待分类文本以及用户特征进行向量化处理,从而能够精准地得到待分类文本的基本粒度向量表示。
在一种可能的设计中,所述级联分类器中包括多层分类器,所述通过级联分类器对特征信息进行分类操作,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911239505.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:计量柜开锁控制装置及计量柜指纹锁
- 下一篇:一种防火隔音的实木复合门