[发明专利]词向量的文本分类方法及终端设备在审

申请号：	201610639589.9	申请日：	2016-08-06
公开（公告）号：	CN106294684A	公开（公告）日：	2017-01-04
发明（设计）人：	周诚;赵世亭	申请（专利权）人：	上海高欣计算机系统有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	上海晨皓知识产权代理事务所(普通合伙)31260	代理人：	成丽杰
地址：	201203 上海市浦东新区自由***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及通信领域，公开了一种词向量的文本分类方法及终端设备。本发明实施方式中，通过连续词袋模型CBOW，计算文本分词后包含各个词向量的词向量矩阵，基于该词向量矩阵查找已知文本类型的各个训练样本分别包含的词向量，并计算出每种文本类型的训练样本的特征向量，最后根据待分类文本的特征向量和各种文本类型的训练样本的特征向量，确定待分类文本的类型。通过这种方式，对词向量化时，会考虑当前词的前面几个词和后面几个词的联系，使整个文本特征具有语义特性，对训练样本进行训练时，效率高且耗时少，在确定待分类文本的类型时，计算量小、计算方式简便快捷且精度高。
搜索关键词：	向量文本分类方法终端设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种词向量的文本分类方法，其特征在于，包括：将L个文本分词后的数据输入连续词袋模型CBOW中，计算包含各个词向量wmn的词向量矩阵Wmn；将M个已知文本类型的训练样本分词后，从所述词向量矩阵Wmn中查找各个训练样本分别包含的词向量wmn；根据所述各个训练样本所包含的词向量wmn，计算每种文本类型的训练样本的特征向量Tk；根据待分类文本的特征向量和各种文本类型的所述训练样本的特征向量Tk，确定待分类文本的类型；其中，M≤L，m为词数，n为词向量的维度，k＝1,2,...,K，K表示文本类型数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海高欣计算机系统有限公司，未经上海高欣计算机系统有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610639589.9/，转载请声明来源钻瓜专利网。

上一篇：一种带辅路可控硅的无线调光调色LED控制器
下一篇：一种AC‑LED驱动电源的软启动电路

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]词向量的文本分类方法及终端设备在审

专利文献下载