[发明专利]一种相似文本确定方法及装置有效
申请号: | 201911368984.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111061842B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 付元宝;顾伟;王玉东 | 申请(专利权)人: | 上海众源网络有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 王卫忠;靳春鹰 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 文本 确定 方法 装置 | ||
本发明实施例提出的一种相似文本确定方法及装置,先通过预设的语义相似度算法计算两个文本的语义相似度,当语义相似度不小于预设第一阈值时确定两个文本是相似文本,当两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,通过字面相似度算法计算两个文本的字面相似度,进一步从字面上判断两个文本是否属于相似文本,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与现有技术只通过一个相似度算法来确定相似文本相比,结果更加准确。
技术领域
本发明实施例涉及语言处理技术领域,具体涉及一种相似文本确定方法及装置。
背景技术
热点(hot spot)通常是指比较受广大群众关注,或者欢迎的新闻或者信息,现在很多用户都会对热点事件进行关注,为了方便用户可以了解到更多的与热点事件相关的内容,现急需一种能针对信息流进行分析,提取与热点事件相关的信息(例如视频、文章、新闻报道等),从而可以推送与热点事件相关信息,为网站访问者提供更加主动的、智能化的服务。
上述对问题的发现过程的描述,仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种相似文本确定方法及装置。
有鉴于此,第一方面,本发明实施例提供一种相似文本确定方法,包括:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
在一种可能的实现方式中,所述语义相似度算法为余弦相似度算法;
所述根据预设的语义相似度算法计算两个文本之间的语义相似度,包括:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
在一种可能的实现方式中,所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度,包括:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
在一种可能的实现方式中,所述方法还包括:
在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值;
所述预设条件为阈值组合对应的一个或多个相关指标的值为所述多个阈值组合中相应的相关指标的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众源网络有限公司,未经上海众源网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368984.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于纳米超润湿界面的低阻强化传热布局结构
- 下一篇:显示面板及其制备方法