[发明专利]一种基于文本的新闻传播效果监测系统在审
| 申请号: | 202011131700.6 | 申请日: | 2020-10-21 |
| 公开(公告)号: | CN112270183A | 公开(公告)日: | 2021-01-26 |
| 发明(设计)人: | 朱俊杰 | 申请(专利权)人: | 北京钛氪新媒体科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/194;G06F16/332 |
| 代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 叶宇 |
| 地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 新闻 传播 效果 监测 系统 | ||
本发明公开了一种基于文本的新闻传播效果监测系统,利用采集来源和发布来源相结合的方式,找出了候选原创文章,极大地减少了文章相似判断的计算量,策略加算法的方式让原创的判断易于实施;使用传播链主文章关键词与候选文章进行比较的方式,在保证传播链选取计算准确的同时,也提高了传播链选取的效率,使得在同样的资源投入下,能够处理更多的文章;计算传播链的过程,在算力资源充足的情况下,可以考虑使用大数据组件进行流式计算,将候选文章与传播链中每篇文章进行比较,可以稍微提高传播链的准确性。
技术领域
本发明涉及通信技术领域,具体领域为一种基于文本的新闻传播效果监测系统。
背景技术
随着移动互联网的兴起,新媒体和自媒体呈现出了一片欣欣向荣之势。除了互联网主要平台外,有实力的媒体单位也开始建设自己的APP,形成了由微博、微信、APP、头条和网站等多平台组成的媒体矩阵。在这些平台上,优秀的文章通常会被大量发布者转载,通过监测媒体用户发布的原创新闻在各平台的传播情况及根据传播力模型计算传播力指数,对稿件传播路径和传播趋势进行分析,多种维度对整体传播效果进行统计分析和展示,直观反映新闻资讯的传播影响力。为新闻媒体稿件传播数字化运营提供决策依据,为记者、编辑考核提供量化数据。
专利2018104356329,介绍了一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算汉明距离判断互联网稿件和参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。该方法计算汉明距离采用的simhash有两个缺点:一是无法对大量数据进行实时计算,得到相似关系;二是对短文本相似性的准确率会很差。
专利2018110388280,介绍了基于文章特征的原创新闻评估方法和系统,该方法包括:获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;根据第一评估报告和第二评估报告确定新闻文章原创性等级。该方法旨在计算原创性,没有提供计算传播路径及传播效果的方案。
发明内容
本发明的目的在于提供一种基于文本的新闻传播效果监测系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于文本的新闻传播效果监测系统,其特征在于:包括以下步骤:
第一步:通过离线爬虫系统对网络新闻文章进行离线数据的采集;
第二步:将采集到的离线新闻文章进行NLP处理,获得的NLP分词,同时获取文章的基本信息,其包括采集来源、标题、发布来源、发布时间、正文;
第三步:将NLP分词与近期文章进行比对,获得相似度判断结果信息,并将信息放到kafka的第一topic中,为后续的判定提供因子;
第四步:将基本信息存入hbase中备用,同时对通过kafka获得的信息进行比对,初步判定是否为原创;
第五步:若初步判定为原创文章或不可确定则采集数据构成关键索引词,并存入es库中,进行延迟对比;
第六步:第五步的二次判定结果若未找到主文章关键词与所述文章关键词匹配超过75%的传播链,则使用所述文章创建一条新的传播链,并记为统计类型1,结果推送步骤三的kafka的第二topic中;
第七步:第五步的二次判定结果若找到主文章关键词与所述文章关键词匹配超过75%的传播链,则将所述文章以原创或不确定类型加入所述传播链,并记为统计类型2,结果推送步骤三的kafka的第二topic中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京钛氪新媒体科技有限公司,未经北京钛氪新媒体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131700.6/2.html,转载请声明来源钻瓜专利网。





