[发明专利]一种基于文本聚类的语义相似度分析方法在审

申请号：	201911100265.8	申请日：	2019-11-12
公开（公告）号：	CN110825877A	公开（公告）日：	2020-02-21
发明（设计）人：	唐昱润;宫法明;马玉辉;司朋举;李昕	申请（专利权）人：	中国石油大学（华东）
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30;G06F40/247;G06K9/62;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	266580 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本语义相似分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本聚类的语义相似度分析方法，其特征及具体步骤如下：

S1，对于输入一个未处理的文本T，采用去除停用词、编码转换以及中文分词的方式进行数据预处理，将其转换为可以进行计算的形式；

S2，对分割好的单词，使用Skip-gram和Softmax模型训练文本词向量以计算词语间的相似度；

S3，使用TF-IDF算法计算词频逆文档频率，进而得到TF-IDF的值，提取出检测文本的关键词；

S4，将词频统计信息作为先验知识加入文本聚类，提出后验判别准则，对样本库中的文本进行初步分类；

S5，将提取出的关键词作为先验知识加入分类器，并在此基础上对样本库中的文本数据进行聚类，精确且细化先前得到的文本数据类别；

S6，对预处理过的待检测文本进行语态分析、同义词消歧义、语义角色标注后生成融合上下文特征的语义向量；

S7，将语义向量输入结构、参数完全相同的两个LSTM处理文本序列，并加入结果的乘积和方差，放大文本的相同点和差异性；

S8，输出文本相似度分析的最终结果。

2.根据权利要求1所述的一种基于文本聚类的语义相似度分析方法，其特征在于，对于步骤

S3，本发明使用的词向量Skip-gram模型由基于Hierarchical Softmax构造的一颗Huffman树，能够根据当前输入的词，从大规模非标注的文本数据中预测上下文词出现的概率，即能够通过当前词语出现的概率来预测周围出现的词；根据词语在窗口中的共现原理，基于窗口滑动来计算词语间的共现概率，这样每个特征词生成的词向量中都包含了一定的文本结构信息和语义信息，其中Skip-gram模型的结构和计算方式如下：

Skip-gram模型包括输入层、投影层和输出层，其中，输入层为当前特征词，词的词向量W_t∈R^m，输出为该特征词上下文窗口中词出现的概率，投影层的目的是使目标函数L值最大化，假定有一组词序列W₁,W₂,…,W_N,则

式(1)中N为词序列的长度，c表示当前特征词的上下文长度(一般取5～10，效果较好)，P(W_j+1|W_j)为已知当前词W_j出现的概率下，其上下文特征词Wj₊₁出现的概率；通过Skip-gram模型训练得到的全部词向量，组成词向量矩阵X∈R^mn，以X_i∈R^m表示特征词i在m维空间中的词向量，特征词之间的相似度，可以使用对应词向量之间的距离来衡量。两个向量之间的欧式距离，如式(2)所示：

d(W_i,W_j)＝‖x_i-x_j‖₂ (2)

式(2)中d(W_i,W_j)表示特征i和j的语义距离，x_i和x_j表示特征词W_i,W_j对应的词向量，d(W_i,W_j)的值越小，说明两个特征词之间的语义距离越小，语义越相似。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国石油大学（华东），未经中国石油大学（华东）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911100265.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本聚类的语义相似度分析方法在审

专利文献下载