[发明专利]一种基于深度语义路径搜索的短文本聚类方法有效
申请号: | 201710352292.9 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107273426B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 李开宇;李秀生 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 李龙;徐金琼 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 语义 路径 搜索 文本 方法 | ||
1.一种基于深度语义路径搜索的短文本聚类方法,其特征在于:包括以下步骤:
步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;
步骤2:建立所述词汇表中各词语的实数向量;
步骤3:对短文本进行预处理;
步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;
步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;
步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;
步骤7:将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;
所述步骤4中,LSTM序列化模型的训练过程为:
步骤S501:将所述短文本的中的各词语映射为one hot向量;
步骤S502:将第i个词语的one hot向量xi和位置i-1的隐藏状态Si-1作为位置i的输入,利用非线性函数F计算出位置i的隐藏状态Si;
步骤S503:改变所述短文本中词语的序列,得出位置i的隐藏状态Si′,利用隐藏状态残差Si-Si′对LSTM序列化模型进行误差反向传播;
步骤S504:多次改变所述短文本中词语的序列,使第i个词语的one hot向量xi和所述非线性函数F得到优化;
所述步骤5中,所述子序列组合的概率的计算方法为:利用训练后的LSTM序列化模型,将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算;
再利用S函数计算出每个词语在该短文本序列中出现的概率Oi;
所述S函数为:
Oi=softmax(VSi);
选择所述最优语义路径的方法为:利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。
2.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤1中,预处理的方法为:将所述语料库中的句子进行大小写转换和分词处理;选出所述语料库中出现次数大于N次的词语;将所述词语作为语料库对应的词汇表;其中N表示词语出现频次的阈值。
3.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤2中,利用word2vec的超参数建立词语的实数向量的方法为:
步骤S301:将词语映射为K维实数向量,将所述词语周围的M个词语作为该词语的上下文;
步骤S302:根据所述上下文利用逻辑回归函数预测所述词语的概率;
步骤S303:通过使所述概率最大化,经过反馈迭代改变所述K维实数向量;
步骤S304:当所述逻辑回归函数的损失函数值小于预设阈值后,停止迭代,所得的K维实数向量即为该词语的实数向量;
其中K表示实数向量的长度,M表示词语框的大小。
4.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤3中,对短文本进行预处理的方法为:将所述短文本中的句子进行大小写转换和分词处理。
5.根据权利要求4所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:非线性函数F为:
Si=tanh(Uxi+WSi-1)
其中,i为短文本中词语的序号,U和W为转化参数矩阵,由LSTM序列化模型训练优化得出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710352292.9/1.html,转载请声明来源钻瓜专利网。