[发明专利]一种相似文本确定方法及装置有效
申请号: | 201911368984.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111061842B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 付元宝;顾伟;王玉东 | 申请(专利权)人: | 上海众源网络有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 王卫忠;靳春鹰 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 文本 确定 方法 装置 | ||
1.一种相似文本确定方法,其特征在于,包括:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的关键词提取算法和预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值,在预设取值区间内确定多个阈值组合,获取所述多个阈值组合与文本之间的相关指标,根据所述相关指标确定预设第一阈值和预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。
2.根据权利要求1所述的方法,其特征在于,所述语义相似度算法为余弦相似度算法;
所述根据预设的语义相似度算法计算两个文本之间的语义相似度,包括:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度,包括:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值;
所述预设条件为阈值组合对应的一个或多个相关指标的值为所述多个阈值组合中相应的相关指标的最大值。
5.根据权利要求4所述的方法,其特征在于,采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,包括:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系以及通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、召回率和/或F1值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众源网络有限公司,未经上海众源网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368984.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于纳米超润湿界面的低阻强化传热布局结构
- 下一篇:显示面板及其制备方法