[发明专利]基于词频分布的文字分类方法、装置、设备及介质有效

专利信息
申请号: 201911084640.4 申请日: 2019-11-08
公开(公告)号: CN110955774B 公开(公告)日: 2022-10-11
发明(设计)人: 郭晓麟;高刃;李红艳 申请(专利权)人: 武汉光谷信息技术股份有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 武汉红观专利代理事务所(普通合伙) 42247 代理人: 李季
地址: 430000 湖北省武汉市东湖新技术*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 词频 分布 文字 分类 方法 装置 设备 介质
【说明书】:

发明提出了一种基于词频分布的文字分类方法、装置、设备及介质。包括:获取历史短信样本,将历史短信样本分成训练集合以及验证集合,从训练集合中选择关键词并建立对应的矩阵,提取特征值,根据该特征值获取对应关键词的频率向量以及对应的分类组别,根据该频率向量构建向量空间,获取标准化关键词频率向量;根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离,根据距离对短信息进行分类,本发明通过构建向量空间来对短信息进行分类,并在分类结束之后,对分类过程进行优化和迭代,能够高效、精准完成短信息自动分类。

技术领域

本发明涉及计算机处理技术领域,尤其涉及一种基于词频分布的文字分类方法、装置、设备及介质。

背景技术

传统工作中,对海量短信息进行文字语义上的有效分类时,需要分类人员有一定经验,并且要事先设立一系列具有代表性的分类组别,然后给每个分类组别打上三至五个具有描述性的典型关键词,随后将目标短信息逐一与各分类组别的关键词进行查询匹配,一旦匹配成功,短信息便落入自含关键词所对应的分类组别。

但是,传统的短信息分类的方法还具有如下的缺点,如:对于关键词的界定过于主观,系统只能在用户设定的规则下运行,无法做到自我迭代改进;因为在分类识别过程中,工作量过大,可以会导致分类组别具有一点偏差,对于一些词可能无法识别;每个关键词之间的匹配过程没有联立起来,导致整个分类过程效率低且精准性不高;无法确认某短信息落入特定分类组别的精准程度,也无法让分类者对短信息的集群做直观的复核检查。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

有鉴于此,本发明提出了一种基于词频分布的文字分类方法、装置、设备及介质,旨在解决现有技术无法通过短信息中关键词频率的数值合理构建向量空间来实现对文字进行高效、精准的自动化分类的技术问题。

本发明的技术方案是这样实现的:

一方面,本发明提供了一种基于词频分布的文字分类方法,所述基于词频分布的文字分类方法包括以下步骤:

S1,获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;

S2,从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;

S3,建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;

S4,根据该加权平均空间距离对短信息进行分类。

在以上技术方案的基础上,优选的,步骤S2中,从训练集合中选择关键词,还包括以下步骤,建立语词频率算法,训练集合中短信息的数量,根据语词频率算法计算训练集合中每个语词的出现频率,根据每个语词的出现频率的数值将语词按从大到小的顺序进行排列,并选取前n个语词作为关键词。

在以上技术方案的基础上,优选的,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量,还包括以下步骤,获取关键词在训练集合中两两同时出现的频率,根据该频率构建矩阵,通过主成分分析,从该矩阵中获取特征值,根据该特征值确定对应短信息的分类组别以及对应的关键词的频率向量,根据该频率向量构建向量空间,同时对该频率向量进行标准化,获取标准化关键词频率向量。

在以上技术方案的基础上,优选的,步骤S3中,还包括以下步骤,所述加权平均空间距离算法为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉光谷信息技术股份有限公司,未经武汉光谷信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911084640.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top