[发明专利]一种文本相似度计算方法、装置、电子设备及存储介质在审
| 申请号: | 201811067840.4 | 申请日: | 2018-09-13 | 
| 公开(公告)号: | CN109284502A | 公开(公告)日: | 2019-01-29 | 
| 发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 | 
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 | 
| 地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 匹配文本 文本相似度 输入文本 语义相似度 存储介质 电子设备 候选答案 权重计算 句型 相似度 词性 综合相似度 相关度 机器人 回复 集合 | ||
1.一种文本相似度计算方法,其特征在于,包括:
根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;
根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;
根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度,包括:
按照如下公式计算所述两个待匹配文本句的句型相似度:
其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。
3.根据权利要求1所述的方法,其特征在于,所述根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度,包括:
按照如下公式计算所述两个待匹配文本句的语义相似度:
其中,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。
4.根据权利要求1所述的方法,其特征在于,所述根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度,包括:
按照如下公式计算所述两个待匹配文本句的综合相似度:
其中,SenSim(A,B)表示待匹配文本句A与待匹配文本句B的综合相似度,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,SemanticSim(A,B)表示待匹配文本句A与待匹配文本句B的语义相似度,为句型相似度对应的权重,为语义相似度对应的权重。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;或者根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度之前,所述方法还包括:
对所述两个待匹配文本句进行分词以及词性标注处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述两个待匹配文本句进行分词以及词性标注处理,包括:
利用python中的jieba分词工具对所述两个待匹配文本句进行分词以及词性标注处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811067840.4/1.html,转载请声明来源钻瓜专利网。





