[发明专利]生成特征向量和基于特征向量进行文本分类的方法和装置在审
| 申请号: | 201810034609.9 | 申请日: | 2018-01-15 |
| 公开(公告)号: | CN110119445A | 公开(公告)日: | 2019-08-13 |
| 发明(设计)人: | 郭培伦;许斌;赵炳岳 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
| 地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征向量 矩阵 文本分类 业务场景 特征权重 文本数据 特征向量矩阵 方法和装置 词向量 计算机技术领域 关联权重 用户体验 运算 | ||
1.一种生成特征向量的方法,其特征在于,包括:
获取文本数据的特征权重矩阵和词向量矩阵,所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成;
通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵,所述特征向量矩阵由特征向量组成。
2.根据权利要求1所述的方法,其特征在于,获取文本数据的特征权重矩阵的步骤包括:
对文本数据进行分词操作;
对所述分词操作得到的每个词,通过计算所述每个词与业务场景类别的关联权重以得到所述文本数据的特征权重矩阵。
3.根据权利要求2所述的方法,其特征在于,利用特征选择的方法计算所述每个词与所述业务场景类别的关联权重,所述特征选择的方法包括以下中的一种:卡方检验、信息增益、相关系数、基尼系数、数据建模、L1范数正则化、决策树。
4.根据权利要求1所述的方法,其特征在于,获取文本数据的词向量矩阵的步骤包括:
对文本数据进行分词操作;
对所述分词操作得到的每个词,通过计算所述每个词的词向量以得到所述文本数据的词向量矩阵。
5.根据权利要求1所述的方法,其特征在于,所述运算为卷积运算。
6.一种基于特征向量进行文本分类的方法,其特征在于,包括:
获取文本数据的特征权重矩阵和词向量矩阵,所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成;
通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵,所述特征向量矩阵由特征向量组成;
对所述特征向量进行训练以得到文本数据分类模型;
使用所述文本数据分类模型进行文本数据分类。
7.根据权利要求6所述的方法,其特征在于,对所述特征向量进行训练以得到文本数据分类模型的步骤包括:
将所述特征向量输入待训练模型中以得到输出值;
将所述输出值与实际值进行比较并计算误差和;
根据所述误差和调整所述待训练模型的参数;
重复执行以上3个步骤,直至所述误差和小于预设的误差阈值,并将所述误差和小于预设的误差阈值的待训练模型作为文本数据分类模型。
8.一种生成特征向量的装置,其特征在于,包括:
数据获取模块,用于获取文本数据的特征权重矩阵和词向量矩阵,所述特征权重矩阵由所述文本数据与业务场景类别的关联权重构成;
特征运算模块,用于通过对所述特征权重矩阵与所述词向量矩阵进行运算以生成特征向量矩阵,所述特征向量矩阵由特征向量组成。
9.根据权利要求8所述的装置,其特征在于,所述数据获取模块还用于:
对文本数据进行分词操作;
对所述分词操作得到的每个词,通过计算所述每个词与所述业务场景类别的关联权重以得到所述文本数据的特征权重矩阵。
10.根据权利要求9所述的装置,其特征在于,所述数据获取模块利用特征选择的方法计算所述每个词与所述业务场景类别的关联权重,所述特征选择的方法包括以下中的一种:卡方检验、信息增益、相关系数、基尼系数和数据建模、L1范数正则化、决策树。
11.根据权利要求8所述的装置,其特征在于,所述数据获取模块还用于:
对文本数据进行分词操作;
对所述分词操作得到的每个词,通过计算所述每个词的词向量以得到所述文本数据的词向量矩阵。
12.根据权利要求8所述的装置,其特征在于,所述运算为卷积运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810034609.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抽取式与生成式相结合的公文摘要生成模型
- 下一篇:可解释人工智能





