[发明专利]一种相似文本确定方法及装置有效

申请号：	201911368984.8	申请日：	2019-12-26
公开（公告）号：	CN111061842B	公开（公告）日：	2023-06-30
发明（设计）人：	付元宝;顾伟;王玉东	申请（专利权）人：	上海众源网络有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	王卫忠;靳春鹰
地址：	200030 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种相似文本确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种相似文本确定方法，其特征在于，包括：

根据预设的语义相似度算法计算两个文本之间的语义相似度；

若所述语义相似度不小于预设第一阈值，则确定所述两个文本为相似文本；

若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值，则根据预设的关键词提取算法和预设的字面相似度算法计算所述两个文本之间的字面相似度，其中，所述预设第一阈值大于所述预设第二阈值，在预设取值区间内确定多个阈值组合，获取所述多个阈值组合与文本之间的相关指标，根据所述相关指标确定预设第一阈值和预设第二阈值；

若所述字面相似度不小于所述预设第一阈值，则确定所述两个文本为相似文本。

2.根据权利要求1所述的方法，其特征在于，所述语义相似度算法为余弦相似度算法；

所述根据预设的语义相似度算法计算两个文本之间的语义相似度，包括：

将所述两个文本分别输入预设的词向量转换模型，得到所述两个文本分别对应的词向量；

采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度，以作为所述两个文本之间的语义相似度。

3.根据权利要求1所述的方法，其特征在于，所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度，包括：

采用预设的关键词提取算法分别提取所述两个文本的关键词；

采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度，以作为所述两个文本之间的字面相似度。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在预设取值区间内确定多个阈值组合，每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值；

获取多个文本对作为样本，每个文本对中包含两个关系已知的文本，所述关系为相似文本或非相似文本；

采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标，所述相关指标包括准确率、精确率、召回率和/或F1值；