[发明专利]一种基于词向量的短文本语义相似度计算方法有效
申请号: | 201810929693.0 | 申请日: | 2018-08-10 |
公开(公告)号: | CN109190117B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 胡琮亮;吴培;罗南杭;万华庆;方明杰 | 申请(专利权)人: | 中国船舶重工集团公司第七一九研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 文本 语义 相似 计算方法 | ||
1.一种基于词向量的短文本语义相似度计算方法,其特征在于,包括以下步骤:
获取语料库,对语料库进行分词,并对分词进行词向量模型处理,生成每个词的词向量,然后构建词向量库;
对样本集中的两个短文本进行分词,并提取文本特征集合,所述文本特征集合包括词性特征、语意特征和文本结构特征;
从词向量库中找到词性特征对应的词向量、语意特征对应的词长向量以及文本结构特征对应的词向量,并找出文本结构特征对应的最长公共子串;
根据词性特征对应的词向量、语意特征对应的词长向量、文本结构特征对应的词向量和最长公共子串,计算样本集中的两个短文本的文本特征集合中各文本特征的相似度,从各文本特征的相似度中选择超过阈值的相似度形成最优相似度集合,并计算最优相似度集合中的各相似度的权重;
以所述最优相似度集合中各相似度为计算项,计算待测的两个短文本的各文本特征的相似度,然后对各文本特征的相似度加权求和得出短文本语义相似度;
所述词性特征的相似度包括:名词相似度、时间词相似度、动词相似度、数词相似度、介词相似度和量词相似度;
两文本的所有名词的词向量相互内积,取内积的均值即为名词相似度;两文本的所有时间词的词向量相互内积,取内积的均值即为时间词相似度;两文本的所有动词的词向量相互内积,取内积的均值即为动词相似度;两文本的所有数词的词向量相互内积,取内积的均值即为数词相似度;两文本的所有介词的词向量相互内积,取内积的均值即为介词相似度;两文本的所有量词的词向量相互内积,取内积的均值即为量词相似度;
所述语意特征对应的词长向量是将短文本的主干词串联,结合相应的词向量,构成的词长向量;若两个句子中词的数量不一样,则以短句子为基准,对较多词的句子进行排列组合构成与短句子数量相同的词数,再进行相似性计算;
所述语意特征的相似度包括:语意最小相似度、语意最大相似度、语意中值相似度和语意均值相似度;
两文本语意词长向量相互内积,取最小值即为语意最小相似度;两文本语意词长向量相互内积,取最大值即为语意最大相似度;两文本语意词长向量相互内积,取最中值即为语意中值相似度;两文本语意词长向量相互内积,取均值即语意均值相似度;
所述文本结构特征的相似度包括:第一词义最大相似度均值、第二词义最大相似度均值、最长公共子串最小耗费、第一最长公共子串特征、第二最长公共子串特征和字符长度比;
计算文本A中每个词向量和文本B所有词向量的内积,取最大值保留,对所有最大值进行求平均值即为第一词义最大相似度均值;计算文本B中每个词向量和文本A所有词向量内积,取最大值保留,全部计算完成后,对所有最大值进行求平均值即为第二词义最大相似度均值;最长公共子串最小耗费为最长公共子串跨越的最小字符长度与文本A字符串的长度比;第一最长公共子串特征为最长公共子串与文本A字符串的长度比;第二最长公共子串特征为最长公共子串与文本B字符串的长度比;字符长度比为较短字符串与较长字符串的长度比。
2.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述对语料库进行分词后还需进行数据清理,得到语料库中的中文分词。
3.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于:所述词向量模型为word2vec模型。
4.如权利要求3所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述构建词向量库的具体方法为:将word2vec模型生成的词向量写入Mysql数据库中,并对分词建立相应的索引。
5.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于,选择所述最优相似度集合的具体方法为:所述样本集包括训练样本和测试样本,利用训练样本的两个短文本的各文本特征相似度分布建立混合高斯模型,每个高斯模型对应一个文本特征相似度,利用期望最大化算法估算各文本特征相似度分布的混合高斯模型参数,然后将测试样本输入混合高斯模型,计算实际相似度和理论相似度的欧式距离,去掉欧式距离大于预设阈值的文本特征的相似度,余下的为最优相似度集合。
6.如权利要求1所述的基于词向量的短文本语义相似度计算方法,其特征在于,所述相似度计算的结果a的取值范围是[-1,1],当a=1时表示语义完全相似,当a=-1时表示语义完全不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七一九研究所,未经中国船舶重工集团公司第七一九研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810929693.0/1.html,转载请声明来源钻瓜专利网。