[发明专利]一种短文本分类方法在审

申请号：	201810862973.4	申请日：	2018-08-01
公开（公告）号：	CN109255025A	公开（公告）日：	2019-01-22
发明（设计）人：	莫益军;姚澜;杨帆	申请（专利权）人：	华中科技大学鄂州工业技术研究院;华中科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	北京众达德权知识产权代理有限公司 11570	代理人：	刘杰
地址：	436044 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本信息词语短文本分类特征矩阵分类卷积神经网络同义词词表方法和装置词语向量分词处理规则设定技术效果数据信息测试集短文本复用性停用词训练集映射多义分词停用登录删除开发
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种短文本分类方法，其特征在于，所述方法包括：

获得第一文本信息，所述第一文本信息为需要分类的短文本数据信息；

对所述第一文本信息进行标记，获得第二文本信息，所述第二文本信息包括训练集、开发集、测试集；

通过单一粒度分词原则对所述第一文本信息进行分词处理，获得第一词语集；

根据停用词表，删除所述第一词语集中的停用词，获得第二词语集，所述第二词语集中的词语的存在形式为词语ID形式；

将所述第二词语集中的词语ID映射为词语向量，获得特征矩阵；

通过卷积神经网络和所述特征矩阵，对所述第一文本信息进行分类。

2.如权利要求1所述的方法，其特征在于，所述通过单一粒度分词原则对所述第一文本信息进行分词处理，获得第一词语集，具体包括：

获得术语字典；

根据所述术语字典，对所述第一文本信息进行分词处理，获得第一分词结果；

根据分词模型对所述第一分词结果进行评分；

将评分最高的分词结果作为最终分词结果；

根据所述最终分词结果，获得第一词语集。

3.如权利要求1所述的方法，其特征在于，所述将所述第二词语集中的词语ID映射为词语向量，获得特征矩阵，具体包括：

获得第一词典，所述第一词典包括所有中文词语；

根据所述第一词典和所述第一词语集，统计词频；

根据所述词频获得所述第一词语集的霍夫曼树形结构，所述霍夫曼树形结构包含词语节点；

根据所述词语节点，获得所述词语节点所在的二进制码；

将所述词语节点初始化为词语向量；

训练所述词语向量；

根据所述词语向量、所述第一词语集，获得所述特征矩阵。

4.如权利要求3所述的方法，其特征在于，所述词语向量包括中间向量和初始词向量。

5.一种短文本分类装置，其特征在于，所述装置包括：

第一获得单元，所述第一获得单元用于获得第一文本信息，所述第一文本信息为需要分类的短文本数据信息；

第二获得单元，所述第二获得单元用于对所述第一文本信息进行标记，获得第二文本信息，所述第二文本信息包括训练集、开发集、测试集；

第三获得单元，所述第三获得单元用于通过单一粒度分词原则对所述第一文本信息进行分词处理，获得第一词语集；

第四获得单元，所述第四获得单元用于根据停用词表，删除所述第一词语集中的停用词，获得第二词语集，所述第二词语集中的词语的存在形式为词语ID形式；

第五获得单元，所述第五获得单元用于将所述第二词语集中的词语ID映射为词语向量，获得特征矩阵；

第一分类单元，所述第一分类单元用于通过卷积神经网络和所述特征矩阵，对所述第一文本信息进行分类。

6.一种短文本分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

获得第一文本信息，所述第一文本信息为需要分类的短文本数据信息；

对所述第一文本信息进行标记，获得第二文本信息，所述第二文本信息包括训练集、开发集、测试集；

通过单一粒度分词原则对所述第一文本信息进行分词处理，获得第一词语集；

根据停用词表，删除所述第一词语集中的停用词，获得第二词语集，所述第二词语集中的词语的存在形式为词语ID形式；

将所述第二词语集中的词语ID映射为词语向量，获得特征矩阵；

通过卷积神经网络和所述特征矩阵，对所述第一文本信息进行分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学，未经华中科技大学鄂州工业技术研究院;华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810862973.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种异常用户同党的搜索方法，装置，及系统
下一篇：一种基于共词分析和聚类分析的学习需求分析的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种短文本分类方法在审

专利文献下载