[发明专利]一种结合语义识别实现标识文本差异内容的方法及系统有效

申请号：	202110562368.7	申请日：	2021-05-24
公开（公告）号：	CN113051869B	公开（公告）日：	2023-08-08
发明（设计）人：	张利江;滕菁;孙长磊;蒋涛	申请（专利权）人：	浙江有数数智科技有限公司
主分类号：	G06F40/106	分类号：	G06F40/106;G06F40/284;G06F40/30;G06F18/214;G06F16/33
代理公司：	北京崇智知识产权代理有限公司 11605	代理人：	马良
地址：	310000 浙江省杭州市西湖区文***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合语义识别实现标识文本差异内容方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种结合语义识别实现标识文本差异内容的方法，包括：S100：通过深度学习方法预训练所述相似度计算模型；S200：计算待对比文本的第一相似度；S300：逐个随机剔除待对比文本中的分词；S400：计算剔除分词之后的待对比文的第二相似度；S500：当第二相似度小于预设相似度阈值且大于第一相似度时，重复步骤S300；S600：当第二相似度小于第一相似度时，放回被剔除的分词后，重复步骤S300；S700：当第二相似度大于或等于预设相似度阈值时，标识待对比文本中被剔除的分词。本申请可以在保留语义的前提下，提取出两句文本中不同的内容，并对不同的内容进行高亮展示，准确高效的提取到使用者关注的核心要素，从而提升使用者的工作效率。

技术领域

本申请涉及本申请涉及自然语言处理的相关技术，特别是涉及一种结合语义识别实现标识文本差异内容的方法。

背景技术

随着大数据时代的到来，我们的生活和工作被大量数据包围，如何从纷杂的数据中提取对自己有用的信息，变得越来越重要。主流文本差异的高亮比对技术基于文本中的字符串比较进行高亮，该方法的不足之处在于：若两句文本中同个意思使用的词不同或同个意思但语序不同，会导致无法准确识别其中差异内容，导致高亮了多余的内容，失去了高亮应有的价值，增加了阅读者的阅读成本。

发明内容

本申请的主要目的在于提供一种结合语义识别实现标识文本差异内容的方法，包括：

S100：通过深度学习方法预训练相似度计算模型；

S200：通过相似度计算模型计算待对比文本的第一相似度；

S300：当所述第一相似度小于预设相似度阈值时，逐个随机剔除所述待对比文本中的分词；

S400：通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度；

S500：当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时，则认为剔除有效，将所述第二相似度作为所述第一相似度，并重复执行逐个随机剔除所述待对比文本中的分词后，通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度；

S600：当所述第二相似度小于所述第一相似度时，则认为剔除无效，放回被剔除的所述分词后，重复执行逐个随机剔除所述待对比文本中的分词后，通过相似度计算模型计算剔除所述分词之后的所述待对比文本的第二相似度；

S700：当所述第二相似度大于或等于所述预设相似度阈值时，标识所述待对比文本中被剔除的分词。

可选地，结合语义识别实现标识文本差异内容的方法还包括：

设定所述相似度阈值。

可选地，结合语义识别实现标识文本差异内容的方法还包括：