[发明专利]一种融合数据类别信息的文本特征提取方法有效

申请号：	201811178279.7	申请日：	2018-10-10
公开（公告）号：	CN109446519B	公开（公告）日：	2020-05-22
发明（设计）人：	王博;杨树森;徐宗本	申请（专利权）人：	西安交通大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06K9/62
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	徐文权
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种融合数据类别信息的文本特征提取方法，该方法通过对数据进行清洗并训练词向量，将Seq2Seq自编码模型融入到LSTM分类模型，Seq2Seq和LSTM共用同一个Encoder，使得模型完成训练后，Encoder不仅可以利用到样本的类别信息，而且可以利用到文本自身的结构信息和语义信息，显著提高了Encoder面对未知类别文本的特征提取能力。
搜索关键词：	一种融合数据类别信息文本特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种融合数据类别信息的文本特征提取方法，其特征在于，包括以下步骤：1)数据清洗；对文本数据进行分词，去除特殊符号以及生僻字词；2)文本预处理；对步骤1)中分好的词语赋予ID，然后建立词语‑ID词典；3)词向量预处理；利用步骤1)生成的词语‑ID词典生成词语的one‑hot表示，并设置词向量的长度L，随机初始化形状为N×L的矩阵，其中N为词典中词语的个数，该矩阵的每一行就是一个词向量；设置滑动窗口大小，将窗口中间位置词语的one‑hot向量作为目标输出，其他位置词语的one‑hot向量与N×L矩阵相乘并求和后作为实际输出，滑动窗口遍历预料库，通过梯度下降法最小化实际输出和目标输出之间的损失，得到最终的词向量矩阵；4)构建模型首先建立LSTM分类模型，将一条文本看作是时间序列数据，LSTM的循环体会遍历该文本中的词语，每一个时刻的输入是该位置的词向量，当循环体处理完最后一个词语时，输出特征向量，然后将该特征向量作为Softmax分类器的输入，该文本的类别作为分类器的目标输入，用交叉熵衡量Softmax分类器的损失；然后建立Seq2Seq模型，其中Encoder使用上述分类模型中的LSTM，Decoder使用另外一个LSTM模型，Encoder输出特征向量之后，将特征向量和上一时刻的状态向量作为Decoder每一时刻的输入，Decoder的每一时刻输出也是一个向量，将该向量作为Softmax的输入，当前时刻的目标输出是下一时刻词语的one‑hot向量，也是用交叉熵衡量损失；最后将LSTM分类模型的损失和Seq2Seq模型的损失做加权综合，作为模型的总体损失，通过优化方法最小化总体损失，得到Encoder作为最终的特征提取模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811178279.7/，转载请声明来源钻瓜专利网。

上一篇：语言模型的解码方法及解码器
下一篇：用于构建知识库的数据聚类方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合数据类别信息的文本特征提取方法有效

专利文献下载