[发明专利]一种短文本相似度计算系统及其训练方法有效
| 申请号: | 201911375500.2 | 申请日: | 2019-12-27 |
| 公开(公告)号: | CN111209395B | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 王丙栋;游世学 | 申请(专利权)人: | 铜陵中科汇联科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/117;G06F40/126;G06F40/205;G06F40/30;G06N3/08 |
| 代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙) 11417 | 代理人: | 李文军 |
| 地址: | 244000 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 相似 计算 系统 及其 训练 方法 | ||
本申请公布了一种短文本相似度计算系统及其训练方法,所述系统包含以下模块:文本切分模块、文本编码器、文本相似度计算神经网络模块。本申请的短文本相似度计算系统,对需要计算相似度的两个短文本编码使用相同的编码器,再使用注意力机制得到第一个文本对第二个文本的注意力,归一化注意力得到相似度的值。本申请的神经网络有效利用了文本中词语在上下文的语义编码以及文本整体的语义编码,使用注意力来表征相似度,缓解了文本级语义编码的信息损失,避免了词语级语义编码孤立于上下文的问题。
技术领域
本申请涉及文本挖掘和深度学习技术领域,尤其涉及一种短文本相似度计算系统及其训练方法。
背景技术
短文本相似度计算广泛应用于问答系统、文本分类、文本聚类。常见的文本相似度计算方法有:以词为文本的基本单元计算Levenshtein编辑距离、把文本当作字词的集合并基于词义或词向量来计算文本的相似度、使用深度神经网络得到文本整体的编码并基于文本级编码向量来计算相似度。上述基于字词的方法忽视了字词在不同上下文的多义性,而基于文本级编码的方法存在语义信息损失的问题。
发明内容
本申请的目的是提供一种短文本相似度计算系统,对需要计算相似度的两个文本的词语序列以及文本整体进行编码,使用注意力机制计算第一文本词语序列编码对第二文本整体编码的注意力,归一化注意力得到相似度的值。
为实现上述目的,本申请采取以下技术方案:
根据本申请的第一个方面,提供了一种短文本相似度计算系统,包含以下模块:
文本切分模块;
文本编码器;
文本相似度计算神经网络模块。
以上模块的详细描述如下:
文本切分模块:将文本切分为token的序列,token既可以是字也可以是词,本申请中的token是字;在序列的开头处拼接上[BOS]标记、结尾处拼接上 [EOS]标记,其中[BOS]表示文本开头,[EOS]表示文本结尾。
文本编码器:用于将文本编码为token序列的向量表示。目前流行的文本编码器有ALBERT、ELMo、LSTM等,本申请使用ALBERT,也支持其他能对字词序列编码的序列模型。对于得到的token序列的编码,取[BOS]对应的向量为文本整体的编码向量。
文本相似度计算神经网络模块:对于给定的两个文本,将这两个文本的相似度表示为S(text1,text2),将第一文本编码对第二文本编码的注意力表示为attention(text1,text2),其中text1表示第一文本,text2表示第二文本。
相似度计算方法如下:
S(text1,text2)=attention(text1,text2)
第一文本编码对第二文本编码的注意力为第一文本中所有token对第二文本的注意力的平均。计算方法如下:
attention(text1,text2)=sum(sigmoid(attention(token,text2)))/leng th(text1)
其中attention(token,text2)为第一文本经编码得到与上下文语境相关的token向量对第二文本整体编码向量的注意力,length(text1)为第一文本中 token的个数。
所述文本相似度计算神经网络模块包括:
第一两层前馈网络,将第一文本token的向量矩阵变换为注意力机制的 query,其中第一层神经元使用relu作为激活函数,第二层不使用激活函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于铜陵中科汇联科技有限公司,未经铜陵中科汇联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911375500.2/2.html,转载请声明来源钻瓜专利网。





