[发明专利]一种结合语义识别实现标识文本差异内容的方法及系统有效
申请号: | 202110562368.7 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113051869B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张利江;滕菁;孙长磊;蒋涛 | 申请(专利权)人: | 浙江有数数智科技有限公司 |
主分类号: | G06F40/106 | 分类号: | G06F40/106;G06F40/284;G06F40/30;G06F18/214;G06F16/33 |
代理公司: | 北京崇智知识产权代理有限公司 11605 | 代理人: | 马良 |
地址: | 310000 浙江省杭州市西湖区文*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 语义 识别 实现 标识 文本 差异 内容 方法 系统 | ||
本申请公开了一种结合语义识别实现标识文本差异内容的方法,包括:S100:通过深度学习方法预训练所述相似度计算模型;S200:计算待对比文本的第一相似度;S300:逐个随机剔除待对比文本中的分词;S400:计算剔除分词之后的待对比文的第二相似度;S500:当第二相似度小于预设相似度阈值且大于第一相似度时,重复步骤S300;S600:当第二相似度小于第一相似度时,放回被剔除的分词后,重复步骤S300;S700:当第二相似度大于或等于预设相似度阈值时,标识待对比文本中被剔除的分词。本申请可以在保留语义的前提下,提取出两句文本中不同的内容,并对不同的内容进行高亮展示,准确高效的提取到使用者关注的核心要素,从而提升使用者的工作效率。
技术领域
本申请涉及本申请涉及自然语言处理的相关技术,特别是涉及一种结合语义识别实现标识文本差异内容的方法。
背景技术
随着大数据时代的到来,我们的生活和工作被大量数据包围,如何从纷杂的数据中提取对自己有用的信息,变得越来越重要。主流文本差异的高亮比对技术基于文本中的字符串比较进行高亮,该方法的不足之处在于:若两句文本中同个意思使用的词不同或同个意思但语序不同,会导致无法准确识别其中差异内容,导致高亮了多余的内容,失去了高亮应有的价值,增加了阅读者的阅读成本。
发明内容
本申请的主要目的在于提供一种结合语义识别实现标识文本差异内容的方法,包括:
S100:通过深度学习方法预训练相似度计算模型;
S200:通过相似度计算模型计算待对比文本的第一相似度;
S300:当所述第一相似度小于预设相似度阈值时,逐个随机剔除所述待对比文本中的分词;
S400:通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S500:当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时,则认为剔除有效,将所述第二相似度作为所述第一相似度,并重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S600:当所述第二相似度小于所述第一相似度时,则认为剔除无效,放回被剔除的所述分词后,重复执行逐个随机剔除所述待对比文本中的分词后,通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度;
S700:当所述第二相似度大于或等于所述预设相似度阈值时,标识所述待对比文本中被剔除的分词。
可选地,结合语义识别实现标识文本差异内容的方法还包括:
设定所述相似度阈值。
可选地,结合语义识别实现标识文本差异内容的方法还包括:
当所述第一相似度大于或等于所述相似度阈值时,无需标识。
可选地,结合语义识别实现标识文本差异内容的方法还包括:
对比所述第一相似度与所述相似度阈值。
可选地,结合语义识别实现标识文本差异内容的方法还包括:
对比所述第二相似度与所述第一相似度,以及对比所述第二相似度与所述相似度阈值。
可选地,结合语义识别实现标识文本差异内容的方法还包括:
将所述待对比文本进行分词处理。
根据本申请的另一个目的,还提供了一种结合语义识别实现标识文本差异内容的系统,包括:
第一相似度计算模块,用于通过深度学习方法预训练相似度计算模型,并通过相似度计算模型计算待对比文本的第一相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江有数数智科技有限公司,未经浙江有数数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562368.7/2.html,转载请声明来源钻瓜专利网。