[发明专利]文本归类方法、装置、电子设备及介质有效
| 申请号: | 202011581244.5 | 申请日: | 2020-12-28 |
| 公开(公告)号: | CN112579781B | 公开(公告)日: | 2023-09-15 |
| 发明(设计)人: | 钱辉娟 | 申请(专利权)人: | 平安银行股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06F40/279;G06F40/211 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 归类 方法 装置 电子设备 介质 | ||
1.一种文本归类方法,其特征在于,所述方法包括:
获取历史文本集,提取所述历史文本集的文本关键词集,所述文本关键词集包括标识多个文本类别的多个文本关键词子集;
获取待归类文本;
对所述待归类文本进行预处理,得到待归类标准文本;
筛选所述待归类标准文本中预设词性的关键词,得到候选关键词集,基于图排序算法从所述候选关键词集中提取目标关键词集;
判断所述多个文本关键词子集中是否存在与所述目标关键词集匹配的文本关键词子集;
在所述多个文本关键词子集中存在与所述目标关键词集匹配的文本关键词子集时,确定与所述目标关键词集匹配的文本关键词子集对应的文本类别为所述待归类文本的类别;
在所述多个文本关键词子集中不存在与所述目标关键词集匹配的文本关键词子集时,利用预设的归属概率模型计算所述目标关键词集分别对应所述多个文本类别的第一归属概率值,得到第一归属概率值集合,根据所述第一归属概率值集合和预设归属概率公式计算得到第二归属概率值集合,确定所述第二归属概率值集合中最大的第二归属概率值对应的文本类别为所述待归类文本的类别;
其中,所述预设归属概率公式包括:
其中,Pfinal为第二归属概率值,P为第一归属概率值,F*为时间归一因子,urli*为频数归一因子。
2.如权利要求1所述的文本归类方法,其特征在于,所述提取所述历史文本集的文本关键词集,包括:
以句号为节点对所述历史文本集进行句子分割处理,得到初始句子集;
对所述初始句子集中的每个句子进行去停用词处理,得到去停句子集;
对所述去停句子集中的每个句子进行分词处理,得到分词数据集;
对所述分词数据集中的每个词语进行词性标注处理,得到标准文本集;
提取所述标准文本集的文本关键词词集。
3.如权利要求1所述的文本归类方法,其特征在于,所述基于图排序算法从所述候选关键词集中提取目标关键词集,包括:
根据所述候选关键词集构建有向有权图;
根据预设的权重计算公式计算所述有向有权图中多个节点的权重;
将所述有向有权图中权重超过预设阈值的节点作为所述候选关键词集的目标关键词进行汇总,得到目标关键词集。
4.如权利要求3所述的文本归类方法,其特征在于,所述预设的权重计算公式包括:
其中,WS(Vi)表示节点Vi的权重,d为阻尼系数,In(Vi)为指向节点Vi的第一节点集合,Out(Vj)为节点Vi所指向的第二节点集合,Wji为节点Vi和Vj之间的连接权重。
5.如权利要求1所述的文本归类方法,其特征在于,所述根据所述第一归属概率值集合和预设归属概率公式计算得到第二归属概率值集合,包括:
获取预设的时间乘数因子和预设的链接频数因子,并分别对所述时间乘数因子和所述链接频数因子进行归一化处理,得到时间归一因子和频数归一因子;
根据所述时间归一因子、所述频数归一因子和预设归属概率公式,计算所述第一归属概率值集合中每个第一归属概率值对应的第二归属概率值;
将计算得到的第二归属概率值进行汇总,得到第二归属概率值集合。
6.如权利要求1至5中任一项所述的文本归类方法,其特征在于,所述对所述待归类文本进行预处理,包括:
对所述待归类文本进行文本纠错处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011581244.5/1.html,转载请声明来源钻瓜专利网。





