[发明专利]一种基于汉字属性向量表示的文本相似性计算方法及系统有效
| 申请号: | 201710083030.7 | 申请日: | 2017-02-16 |
| 公开(公告)号: | CN106874258B | 公开(公告)日: | 2020-04-07 |
| 发明(设计)人: | 李平;朱婷婷;陈凯琪;胡栋;陈雁;朱鹏军;彭欣宇;代臻;文敏;汪丽娟 | 申请(专利权)人: | 西南石油大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194 |
| 代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610500 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 汉字 属性 向量 表示 文本 相似性 计算方法 系统 | ||
1.一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:包括以下步骤:
S1.基于汉字属性的向量表示构建文本相似性计算模型;
步骤S1中所述文本相似性计算模型的数据处理方式包括以下子步骤:
S11.基于汉字属性将短文本消息向量化;
S12.提取向量化后短文本消息的特征语义向量;
S13.依据短文本的语义特征向量,计算短文本消息的相似性;
所述的步骤S11包括以下子步骤:
S111.对于短文本消息中的每个字,基于汉字笔画库和拼音库构建其字向量表示,获得该短文本消息中的各个字向量ci,其中ci表示该短文本中第i个字的字向量;
S112.将构建的字向量按其在短文本中出现的顺序进行拼接获得该短文本消息的向量表示;
所述的字向量ci的维度为32位,1-5位分别为该字中包含的横、竖、撇、捺、折的个数,6-31位为汉字对应的26个拼音,第32位为汉字拼音的声调;
所述的步骤S12包括以下子步骤:
S121.设置滑动窗口d,将滑动窗口内字的字向量按顺序拼接形成上下文拼接向量:
第i个滑动窗口内的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d个字的字向量拼接而成,记为Li:
S122.定义卷积矩阵为WL,用卷积矩阵WL和激活函数tanh作用于上下文拼接向量Li,获得局部特征向量Fi:
Fi=tanh(WL*Li);
S123.将获得的所有局部特征向量Fi每一个维度的最大值提取出来形成表征向量R;
S124.定义语义矩阵为WS,将语义矩阵WS和激活函数tanh作用于表征向量R获得最终的语义特征向量y:
y=tanh(WS*R);
所述的步骤S13包括:基于距离度量方法func计算两个短文本消息构成的文本对之间语义特征向量(y1,y2)的相似性:
式中,y1表示文本对中第一个短文本消息的语义特征向量,y2表示文本对中第二个短文本消息的语义特征向量;
S2.基于带标注的短文本集,对构建的相似性计算模型进行训练以获取模型的参数,得到成熟的文本相似性计算模型;
S3.将待计算相似度的短文本消息输入成熟的文本相似性计算模型中,得到短文本对之间的相似性,并将结果反馈给用户。
2.根据权利要求1所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述的步骤S2包括以下子步骤:
S21.获取带有相似性标注的短文本集;
S22.利用短文本相似性计算模型,将短文本集中的短文本消息表征为语义特征向量;
S23.利用短文本相似性计算模型,计算短文本对之间的语义相似性;
S24.根据短文本集中的标注与计算得到的短文本对之间的语义相似性,构建最小化误差损失函数作为目标,并利用随机梯度下降训练获得相似性计算模型中的卷积矩阵参数WL和语义矩阵参数WS,获得成熟的相似性计算模型。
3.根据权利要求1所述的一种基于汉字属性向量表示的文本相似性计算方法,其特征在于:所述步骤S3包括以下子步骤:
S31.将至少两个待计算的相似度的短文本消息输入成熟的相似性计算模型中;所述成熟的相似性计算模型,即训练得到的已知卷积矩阵参数WL和语义矩阵参数WS的计算模型;
S32.利用成熟的相似性计算模型,将各个输入短文本消息表征为语义特征向量;
S33.利用成熟的相似性计算模型,计算各个短文本消息两两之间的语义相似性;
S34.将计算得到的结果反馈给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710083030.7/1.html,转载请声明来源钻瓜专利网。





