[发明专利]一种短文本分类方法在审
| 申请号: | 201810862973.4 | 申请日: | 2018-08-01 |
| 公开(公告)号: | CN109255025A | 公开(公告)日: | 2019-01-22 |
| 发明(设计)人: | 莫益军;姚澜;杨帆 | 申请(专利权)人: | 华中科技大学鄂州工业技术研究院;华中科技大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
| 代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
| 地址: | 436044 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本信息 词语 短文本分类 特征矩阵 分类 卷积神经网络 同义词 词表 方法和装置 词语向量 分词处理 规则设定 技术效果 数据信息 测试集 短文本 复用性 停用词 训练集 映射 多义 分词 停用 登录 删除 开发 | ||
1.一种短文本分类方法,其特征在于,所述方法包括:
获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;
对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;
通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;
根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语的存在形式为词语ID形式;
将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;
通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。
2.如权利要求1所述的方法,其特征在于,所述通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集,具体包括:
获得术语字典;
根据所述术语字典,对所述第一文本信息进行分词处理,获得第一分词结果;
根据分词模型对所述第一分词结果进行评分;
将评分最高的分词结果作为最终分词结果;
根据所述最终分词结果,获得第一词语集。
3.如权利要求1所述的方法,其特征在于,所述将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵,具体包括:
获得第一词典,所述第一词典包括所有中文词语;
根据所述第一词典和所述第一词语集,统计词频;
根据所述词频获得所述第一词语集的霍夫曼树形结构,所述霍夫曼树形结构包含词语节点;
根据所述词语节点,获得所述词语节点所在的二进制码;
将所述词语节点初始化为词语向量;
训练所述词语向量;
根据所述词语向量、所述第一词语集,获得所述特征矩阵。
4.如权利要求3所述的方法,其特征在于,所述词语向量包括中间向量和初始词向量。
5.一种短文本分类装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;
第二获得单元,所述第二获得单元用于对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;
第三获得单元,所述第三获得单元用于通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;
第四获得单元,所述第四获得单元用于根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语的存在形式为词语ID形式;
第五获得单元,所述第五获得单元用于将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;
第一分类单元,所述第一分类单元用于通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。
6.一种短文本分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得第一文本信息,所述第一文本信息为需要分类的短文本数据信息;
对所述第一文本信息进行标记,获得第二文本信息,所述第二文本信息包括训练集、开发集、测试集;
通过单一粒度分词原则对所述第一文本信息进行分词处理,获得第一词语集;
根据停用词表,删除所述第一词语集中的停用词,获得第二词语集,所述第二词语集中的词语的存在形式为词语ID形式;
将所述第二词语集中的词语ID映射为词语向量,获得特征矩阵;
通过卷积神经网络和所述特征矩阵,对所述第一文本信息进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学,未经华中科技大学鄂州工业技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810862973.4/1.html,转载请声明来源钻瓜专利网。





