[发明专利]一种文本相似度计算方法、装置、电子设备及存储介质在审
申请号: | 201811067840.4 | 申请日: | 2018-09-13 |
公开(公告)号: | CN109284502A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配文本 文本相似度 输入文本 语义相似度 存储介质 电子设备 候选答案 权重计算 句型 相似度 词性 综合相似度 相关度 机器人 回复 集合 | ||
本发明实施例公开了一种文本相似度计算方法、装置、电子设备及存储介质,所述方法包括:根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。通过采用上述技术方案,可计算出与输入文本最合适的候选答案集合,由机器人自动对输入文本进行回复,有效提高了候选答案与输入文本的相关度,提高了文本相似度的计算精度。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。
背景技术
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。
在机器人会话领域中,其中一个重要环节是找出与输入语句语义相似度最高的回复。同样,在直播间经常需要根据水友弹幕,计算与其相似度较高的回复,由机器人针对水友弹幕进行自动回复。目前,在直播间中通常采用TF-IDF(Term Frequency-InverseDocument Frequency,词频逆文本频率)算法计算两条弹幕之间的相似度,但是,TF-IDF算法的主要思想是基于词或者短语在文档集中出现的频率分布决定每篇文档的关键词,然后根据关键词在文档集中出现的次数构建词频向量,通过计算文档的词频向量之间的相似度确定文档之间的相似度,可见,TF-IDF算法仅考虑了文档中词的词频,或者说仅考虑了文档中词的重要程度。
因此,为了提高文本相似度计算精度,需要对现有相似度计算算法继续进行改进。
发明内容
本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质,通过所述方法可提高文本相似度的计算精度。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种文本相似度计算方法,所述方法包括:
根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;
根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;
根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。
进一步的,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度,包括:
按照如下公式计算所述两个待匹配文本句的句型相似度:
其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811067840.4/2.html,转载请声明来源钻瓜专利网。