[发明专利]一种用于监控互联网中转载文章信息的控制方法及装置在审
申请号: | 201910361005.X | 申请日: | 2019-04-30 |
公开(公告)号: | CN111859063A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 李青龙;骆飞;彭璿韜;王雪峰;卢达 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/903;G06F16/901 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 监控 互联网 转载 文章 信息 控制 方法 装置 | ||
1.一种用于监控互联网中转载文章信息的控制方法,其特征在于,包括:
系统预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;
系统根据抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;
系统根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹,将需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;
系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。
2.根据权利要求1所述的方法,其特征在于,
所述互联网数据源包括:需要监控互联网中转载文章信息的数据源的网站、论坛、微博、APP或者微信公众号。
3.根据权利要求2所述的方法,其特征在于,
还包括:所述内容相似率的预设值的取值范围为:大于70%且小于100%。
4.根据权利要求3所述的方法,其特征在于,
所述系统进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息的步骤,包括:
所述系统是通过Jaccard方式进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。
5.一种用于监控互联网中转载文章信息的控制装置,其特征在于,包括,
信息抓取单元,用于从预先设置需要监控的一个或多个互联网数据源,抓取预先设置的数据源中文章信息,其中获取文章中文字信息,并获取每篇文章的最长的n个句子的文字信息,n为大于0的整数;
运算单元,用于根据信息抓取单元抓取的文章中文字信息,计算该篇文章的SimHash值,作为该篇文章的SimHash指纹,计算该篇文章的最长的n个句子的hash值,作为该篇文章的hash指纹,将各篇文章的文章信息、SimHash指纹和hash指纹存储到数据库中;并根据需要监控的文章信息的文字信息和该需要监控的文章中最长的n个句子的文字信息,计算得到需要监控的文章的SimHash指纹和hash指纹;及
判断单元,用于将运算单元中计算得到的需要监控的文章的SimHash指纹与所述数据库中各文章的SimHash指纹进行比较,获取数据库中文章的SimHash指纹和需要监控的文章的SimHash指纹的海明距离小于等于3的一或多篇文章信息,并将需要监控的文章的hash指纹与所述数据库中各文章的hash指纹进行比较,获取数据库中文章的hash指纹和需要监控的文章的hash指纹相同的一或多篇文章信息;进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与需要监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。
6.根据权利要求5所述的装置,其特征在于,包括:
所述信息抓取单元抓取信息的互联网数据源包括:需要监控互联网中转载文章信息的数据源的网站、论坛、微博、APP或者微信公众号。
7.根据权利要求6所述的装置,其特征在于,
所述判断单元判定文本相似度中所述内容相似率的预设值的取值范围为:大于70%且小于100%。
8.根据权利要求7所述的装置,其特征在于,
所述判断单元进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息,是指:
所述判断单元是通过Jaccard方式进行文本相似度计算,判断如果获取的所述数据库中一或多篇文章信息的内容与监控的文章信息的内容相似率大于等于预设值,则判定该获取的文章信息为转载文章信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910361005.X/1.html,转载请声明来源钻瓜专利网。