[发明专利]一种结合语义识别实现标识文本差异内容的方法及系统有效
申请号: | 202110562368.7 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113051869B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张利江;滕菁;孙长磊;蒋涛 | 申请(专利权)人: | 浙江有数数智科技有限公司 |
主分类号: | G06F40/106 | 分类号: | G06F40/106;G06F40/284;G06F40/30;G06F18/214;G06F16/33 |
代理公司: | 北京崇智知识产权代理有限公司 11605 | 代理人: | 马良 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 语义 识别 实现 标识 文本 差异 内容 方法 系统 | ||
1.一种结合语义识别实现标识文本差异内容的方法,其特征在于,包括:
S100:通过深度学习方法预训练相似度计算模型;
S200:通过相似度计算模型计算待对比文本的第一相似度;
S300:当所述第一相似度小于预设相似度阈值时,逐个随机剔除所述待对比文本中的分词;
S400:通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S500:当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时,则认为剔除有效,将所述第二相似度作为所述第一相似度,并重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S600:当所述第二相似度小于所述第一相似度时,则认为剔除无效,放回被剔除的所述分词后,重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S700:当所述第二相似度大于或等于所述预设相似度阈值时,标识所述待对比文本中被剔除的分词。
2.根据权利要求1所述的结合语义识别实现标识文本差异内容的方法,其特征在于,还包括:
当所述第一相似度大于或等于所述相似度阈值时,无需标识。
3.根据权利要求2所述的结合语义识别实现标识文本差异内容的方法,其特征在于,还包括:
将所述待对比文本进行分词处理。
4.一种结合语义识别实现标识文本差异内容的系统,其特征在于,包括:
第一相似度计算模块,用于通过深度学习方法预训练相似度计算模型,并通过相似度计算模型计算待对比文本的第一相似度;
分词剔除模块,用于当所述第一相似度小于预设相似度阈值时逐个随机剔除所述待对比文本中的分词;
第二相似度计算模块,用于通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
标识模块,用于当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时,则认为剔除有效,将所述第二相似度作为所述第一相似度,并重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
当所述第二相似度小于所述第一相似度时,则认为剔除无效,放回被剔除的所述分词后,重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
当所述第二相似度大于或等于所述预设相似度阈值时标识所述待对比文本中被剔除的分词。
5.一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其内存储有计算机程序,其特征在于,所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江有数数智科技有限公司,未经浙江有数数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562368.7/1.html,转载请声明来源钻瓜专利网。