[发明专利]文本语义相似度计算方法、装置及用户终端有效
申请号: | 201710109061.5 | 申请日: | 2017-02-27 |
公开(公告)号: | CN108509407B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 孟令勋;王嘉勋 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 唐丽 |
地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语义 相似 计算方法 装置 用户 终端 | ||
1.一种文本语义相似度计算方法,其特征在于,所述方法包括:
建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;
以一个预定模态表示一种语义,根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,计算所述第一词向量矩阵中的每个第一词向量和所述第二词向量矩阵中的每个第二词向量在不同模态下的相似度,得到所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;
利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;所述利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数,包括:提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数;对所述特征矩阵进行全连接;将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果;
当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数还包括:
当未达到预定迭代结束条件,调整所述第一词向量、所述第二词向量、所述相似度量参数、所述特征矩阵参数以及所述全连接的参数,所述人工神经网络参数包括所述特征矩阵参数以及所述全连接的参数。
3.根据权利要求2所述的方法,其特征在于,所述第一文本的预定特征值为所述第一文本中的词语重复率;所述第二文本的预定特征值为所述第二文本中的词语重复率。
4.根据权利要求2所述的方法,其特征在于,所述提取所述多模态相似度矩阵的特征矩阵包括:
对所述多模态相似度矩阵进行卷积,获得卷积特征矩阵;
对所述卷积特征矩阵进行池化,获得所述特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述预定迭代结束条件为,迭代次数达到预定次数或者所述迭代输出结果在预设次数内的变化值小于预设值。
6.根据权利要求1所述的方法,其特征在于,所述建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵包括:
对所述第一文本以及所述第二文本进行分词,获得所述第一文本对应的多个词语以及所述第二文本对应的多个词语;
根据所述第一文本对应的每个词语的序列号从预设词向量列表获取多个第一词向量,根据所述第二文本对应的每个词语的序列号从预设词向量列表获取多个第二词向量,所述预设词向量列表包括多个词向量以及每个词向量对应的序列号;
根据所述多个第一词向量建立所述第一词向量矩阵,根据所述多个第二词向量建立所述第二词向量矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710109061.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语料抽取方法、装置和电子设备
- 下一篇:一种句子相似度判断方法