[发明专利]一种针对文档内容的洗稿检测方法及装置在审
| 申请号: | 202010689935.0 | 申请日: | 2020-07-17 |
| 公开(公告)号: | CN111985244A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 赵甜芳;朱鸿军;吴小坤;谷刚 | 申请(专利权)人: | 广州智城科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/247;G06F40/242;G06F40/211;G06F16/335;G06F16/33 |
| 代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 盛明星 |
| 地址: | 510660 广东省广州市天河区东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 文档 内容 检测 方法 装置 | ||
本申请公开了一种针对文档内容的洗稿检测方法和装置,所述方法包括:提取目标文档的内容特征信息,检索收集以所述目标文档发布时间为起始节点的相似文档构建样本数据库;基于语法依存树的段落特征匹配规则,分析所述目标文档和所述样本数据库中的相似文档;采用预设的相似词词典和N‑gram模型中的数字指纹生成规则,对文字内容表达的相似度进行判定,识别表达型洗稿文档;对样本数据库的文档进行数字指纹匹配,若经过数字指纹匹配结果和重复度阈值,则判定所述目标文档为洗稿文档,生成对应的检测报告。采用本申请所述的方法,能够进行高效的对比识别,及时发现“洗稿”内容并提供证据,提高了内容匹配的精确度,降低了误判率。
技术领域
本发明实施例涉及智能数据分析技术领域,具体涉及一种针对文档内容的洗稿检测方法及装置,另外还涉及一种电子设备及计算机可读存储介质。
背景技术
近年来,由于互联网开放、共享的特点,抄袭使用他人内容作品的行为频发,以“洗稿”为代表的新闻内容“再利用”,带来了著作权保护的难题。这些同质化内容趁着事件热度或博人眼球的标题,迅速瓜分了网络流量和人们的注意力,造成了“原创媒体的读者寥寥无几,转载媒体凭借粉丝优势获得10万+阅读量”的异常现象。
目前,洗稿方法可分为两类:1)思想利用型洗稿。即利用他人文章中的主题、观点、评论等思想元素,通过演绎、重构、深加工等不同类型的表达方式来完成稿件。由于著作权法不保护思想,只保护表达,即采用“思想和表达二分法”,因此这类型经过重新思考的、与原文有明显区别的洗稿很难认定为侵权,不在本专利的探讨范围内;2)表达利用型洗稿。即直接采用他人文章中的场景、人物、情节、段落、文字、逻辑顺序等表达元素,通过简单删节、加标点、同义替换、调整顺序等机械操作完成的稿件,构成了侵权,也是本专利重点解决的问题。现有自媒体抄袭文章多采用这种表达利用型洗稿方式。
为了解决该问题,相似文章检测成为近几年的热门研究方向,主要包括以下几种检测技术:最长公共子序列检测技术,词频统计技术以及数字指纹技术。其中,数字指纹技术是当前性能最优的查重技术,但是仍然存在不足。有学者提出基于依存语法树的特征提取方法,基本思路是通过词性和命名实体的标注,提取句子中的实体词构成组合词,进而借助哈希运算生成数字指纹。这种方法考虑了语法成分和他们之间的关系,如“主谓”、“动宾”、“并列”等语法结构,有一定先进性。但是由于当前该类方法对于句子成分依存关系的判断尚不够准确,导致实际应用效果仍然不佳。
发明内容
为此,本发明实施例提供一种针对文档内容的洗稿检测方法,以解决现有技术中段落数字特征存在的粗粒度和不准确问题,以及句子级指纹特征面临的效率低下的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供一种针对文档内容的洗稿检测方法,包括:提取目标文档的内容特征信息;根据所述内容特征信息,检索收集以所述目标文档发布时间为起始节点的所有相似文档,构建样本数据库;基于预设的语法依存树的段落特征匹配规则,分析所述目标文档和所述样本数据库中的相似文档;采用预设的相似词词典和N-gram模型中的数字指纹生成规则,对文字内容表达的相似度进行判定,识别表达型洗稿文档;对所述样本数据库的每篇文档进行数字指纹匹配,根据数字指纹匹配结果及预设的重复度阈值,判定所述目标文档是否为洗稿文档,并生成对应的检测报告。
进一步的,所述对所述样本数据库的每篇文档进行数字指纹匹配,根据数字指纹匹配结果及预设的重复度阈值,判定所述目标文档是否为洗稿文档,具体包括:将所述目标文档与所述样本数据库的每篇文档进行数字指纹匹配,将与每篇文档经过数字指纹匹配后的语句或段落占比与预设的重复度阈值进行比对;若经过数字指纹匹配后的语句或者段落占比达到或者超过原创文章的预设的比例值,则判定所述目标文档为洗稿文档;若经过数字指纹匹配后的语句或者段落占比未达到原创文章的预设的比例值,则判定所述目标文档为非洗稿文档。
进一步的,所述内容特征信息包括关键词信息、主题词信息以及摘要信息中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智城科技有限公司,未经广州智城科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010689935.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于测量物体表面冰层粘附力的装置及测试方法
- 下一篇:导湿快干针织面料
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





