[发明专利]一种采用多策略自动生成摘要的网络新闻概要系统有效

申请号：	201910868998.X	申请日：	2019-09-16
公开（公告）号：	CN110597981B	公开（公告）日：	2021-07-20
发明（设计）人：	曾太;吴越	申请（专利权）人：	西华大学
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/951
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	刘红阳
地址：	610039 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采用策略自动生成摘要网络新闻概要系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于新闻软件开发技术领域，公开了一种采用多策略自动生成摘要的网络新闻概要系统及方法，进行多新闻网站多领域的数据采集，自动生成文章摘要，生成基于新闻文摘的新闻简讯以及进行阅读分析。本发明以多种策略自动摘要生成算法为核心，针对每一篇从网络中抓取的原新闻报道，对应生成多种新闻简讯，并且去除掉大篇幅正文内容的新闻简讯，帮助用户快速预览、翻阅感兴趣的新闻报道，有助于提高新闻网站的点击率和阅读率；并且有助于提高多新闻网站聚合后高效、规范地分领域分类的使用价值；实现了对大量新闻的快速阅读，节省了用户的大量阅读新闻原文的时间和精力。

技术领域

本发明属于新闻软件开发技术领域，尤其涉及一种采用多策略自动生成摘要的网络新闻概要系统。

背景技术

目前，最接近的现有技术：

随着社交类软件、媒体类软件的迅猛发展，海量的网络文本正以惊人的速度增长。在信息爆炸的时代，如何从海量文本中有效提取重要信息，成为一个亟待解决的问题。针对该问题已陆续出现了多种解决方案，其中，自动文本摘要技术是一种热门且广泛被人们接受的方法。

在一定程度上，自动文本摘要技术可以帮助用户从接收的信息中快速获取重要的文本信息。获取信息的质量和效率依赖于自动文本摘要算法的好坏。目前，该技术处于探索阶段，自动提取出的文摘句子还存在冗余、片面、混合脏数据等问题。

市面上新闻网站繁多，从内容来源上划分，可以大致将新闻网站分为：新闻聚合类网站、专业新闻网站、垂直行业型新闻网站、网络新媒体网站。其中，新闻聚合类网站广泛采集专业新闻网站、垂直行业型新闻网站提供的原始新闻报道，而第三、四种的垂直行业型新闻网站和网络新媒体网站属于泛新闻型网站，非传统的新闻网站。此四类具有代表性的部分网站，如下表1所示：

表1四类具有代表性的部分新闻网站

市面上存在各式新闻网站，却缺乏一款提供自动文摘服务的新闻软件。用户面对每天出现的海量信息，在时间、精力有限的情况下，常常难以快速找到自己感兴趣的话题新闻。

另外，现有新闻网站还普遍缺乏一个关键功能，即基于统计读者过去阅读的新闻内容，对读者的阅读兴趣进行预测、分析的信息服务。因此，读者未能通过统计分析以往的阅读内容来充分了解自身的阅读兴趣。

综上所述，现有技术存在的问题是：

(1)自动文本摘要技术处于探索阶段，自动提取出的文摘句子存在冗余、片面、混合脏数据等问题。

(2)市面上缺乏提供自动文摘服务的新闻软件。新闻读者只能通过依次翻阅新闻标题列表，再点击某一篇可能感兴趣的新闻标题的链接，最后进入一篇新闻报道的详情页进行阅读。这会使读者产生几种阅读体验不畅的情况：

其一，用户仅仅通过翻阅新闻标题，也并不能完全确定是否真正感兴趣该篇新闻报道，尤其是客观存在着的部分“标题党”的文章。

其二，针对每一篇新闻，用户都必须进入新闻详情页来阅读全文，平均阅读一篇新闻所花费的时间较高。

其三，用户不能通过快速预览新闻最重要的节选内容，来确定是否需要精读当前可能感兴趣的新闻报道。

(3)现有技术缺乏基于统计读者以往阅读过的内容进行新闻可视化分析的服务。这导致了用户不能通过数据分析手段，充分客观地了解自己所感兴趣的新闻话题。

解决上述技术问题的难度：

(1)数据采集难度高。其一，对于不同的新闻网站，存在不同的分类、不同的新闻数据属性、不同的网页文档标记结构。其二，现行网站的反爬虫策略丰富多样，如何绕行高难度的网站反爬机制，进而成功下载新闻网页？因此，如何完成对多个新闻网站新闻数据的下载、存储与解析，是一项艰巨的任务。