[发明专利]文本分类方法、装置、设备及计算机可读存储介质在审
申请号: | 201910297133.2 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110008343A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 张威;杨永帮 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518052 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报警文本 文本特征向量 文本分类 分类 计算机可读存储介质 特征提取 文本 分词 预设 文本分类装置 分类准确性 分词处理 预设规则 相似度 运维 场景 检测 | ||
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
检测预设模板池中是否存在模板文本;
若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
2.如权利要求1所述的文本分类方法,其特征在于,所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量的步骤包括:
对所述模板文本进行分词处理,得到第二分词集;
基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;
根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;
根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。
3.如权利要求2所述的文本分类方法,其特征在于,所述第一属性值的计算公式为:
所述第二属性值的计算公式为:
所述第三属性值的计算公式为:
所述第一特征值的计算公式为:
Vs1=Fs1·Fs2;
所述第二特征值的计算公式为:
Vs2=Fs1·Fs3;
其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。
4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类的步骤包括:
计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;
若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;
若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910297133.2/1.html,转载请声明来源钻瓜专利网。