[发明专利]文本处理方法、装置、服务器及存储介质有效
申请号: | 201910773380.5 | 申请日: | 2019-08-21 |
公开(公告)号: | CN112487800B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 赵玲;刘国岭;柯俞嘉;王振蒙;王艺之;张英驰;董珊 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/58;G06F16/33;G06F16/35 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吴金 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 服务器 存储 介质 | ||
本申请实施例公开了一种文本处理方法、装置、服务器及存储介质,本申请实施例可以获取待处理的文本;按照预设策略对所述文本进行分词处理,得到组成所述文本的词语;根据所述词语对所述文本进行特征提取,得到特征向量;基于所述特征向量通过多级级联的分类模型确定所述文本的类型;根据所述文本的类型确定与所述文本对应的答复信息。该方案可以通过多级级联的分类模型的融合来精准确定文本的类型,并根据文本类型快速定位对应的答复信息,提高了回复的准确率和效率。
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本处理方法、装置、服务器及存储介质。
背景技术
目前,在招聘问答工作中,负责招聘的行政人员需要处理大量重复的应聘者的问题以及招聘的宣传工作等,存在人力成本的极大浪费。或者,通过智能客服终端回答相关问题,而智能客服终端回答问题一般是先分析问题的语义信息,根据语义信息从本地语料库的语料内容查找相关的回答,而简单的语义匹配,使得有些问题无法从语料库得到,或者查找的回答与问题之间的相关性较低,即精准性较低,因此智能客服终端提供的答案不能完全满足用户需求。
发明内容
本申请实施例提供一种文本处理方法、装置、服务器及存储介质,可以提高文本处理的准确率和效率。
第一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理的文本;
按照预设策略对所述文本进行分词处理,得到组成所述文本的词语;
根据所述词语对所述文本进行特征提取,得到特征向量;
基于所述特征向量通过多级级联的分类模型确定所述文本的类型;
根据所述文本的类型确定与所述文本对应的答复信息。
在一些实施方式中,所述多级级联的分类模型包括支持向量机模型、随机森林模型、逻辑回归模型、文本分类模型和极端梯度提升模型,所述基于所述特征向量通过多级级联的分类模型确定所述文本的类型包括:
基于所述特征向量分别通过第一级的支持向量机模型、随机森林模型、逻辑回归模型和文本分类模型获取所述文本的类型的预测值;
根据所述预测值通过第二级的极端梯度提升模型确定所述文本的类型。
在一些实施方式中,所述基于所述特征向量分别通过第一级的支持向量机模型、随机森林模型、逻辑回归模型和文本分类模型获取所述文本的类型的预测值之前,所述方法还包括:
获取训练样本;
对所述训练样本进行近义词替换、对偶翻译和/或相关搜索的增广处理,得到处理后的训练样本;
按照所述预设策略对所述处理后的训练样本进行分词处理,生成包含多个词语的词语集;
根据所述词语集获取所述处理后的训练样本的样本特征向量;
根据所述样本特征向量对支持向量机模型、随机森林模型、逻辑回归模型、文本分类模型和极端梯度提升模型进行训练。
在一些实施方式中,所述根据所述词语集获取所述处理后的训练样本的样本特征向量包括:
获取所述词语集中每个词语在每条处理后的训练样本中存在的频率;
从所述处理后的训练样本中筛选出包含所述词语集中的词语的训练样本,得到目标训练样本;
获取所述目标训练样本在所述处理后的训练样本中的逆向文本频率;
根据所述频率及所述逆向文本频率生成所述每个词语对应的参数;
根据所述每个词语对应的所述参数生成样本特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910773380.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单进双排配气机构
- 下一篇:洗衣机用排水阀组件及其控制方法