[发明专利]文档摘要的生成方法及装置在审
申请号: | 201410665760.4 | 申请日: | 2015-08-03 |
公开(公告)号: | CN104503958A | 公开(公告)日: | 2015-07-29 |
发明(设计)人: | 朱少杰;吕雅娟;肖欣延;付波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 摘要 生成 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档摘要的生成方法及装置。
背景技术
随着互联网技术的迅速发展,越来越多的用户越倾向于通过互联网查看新闻信息,目前用户通过移动终端例如手机查看互联网上提供的新闻信息是一种常用方式。然而随着科技的飞速发展,每天在互联网上更新的新闻量非常庞大,类别多样,形式变化多端,人们要在有限的时间内阅读这么多的新闻内容,了解其要点信息是非常困难的事情,并且对于内容量大的新闻,由于移动终端例如手机的屏幕有限,往往手机的首屏中无法展现新闻的全部内容,用户查看不方便,并且用户阅读大量新闻内容后容易忘记前部分新闻内容核心内容,用户查看新闻的用户体验差。
为了方便用户阅读新闻信息,了解新闻的核心内容,现有的展现新闻方式主要是在页面上显示新闻文档对应的标题和对应的一句话摘要或者小于100字的短摘要,移动终端例如智能手机中的新闻客户端上所显示的新闻信息如图1所示。用户通过查看图1中的标题和对应的摘要即可获得新闻的核心内容,当用户对查看的新闻信息感兴趣后,可通过点击对应的新闻标题查看详细新闻。
现有的生成新闻摘要的方式主要有两种方式,第一种方式为人工编辑新闻摘要,编辑人员人工对新闻文档中的内容和结构进行分析,以获得对应新闻文档的摘要,然而,通过人工编辑摘要的方式耗时耗力,新闻摘要更新效率。第二种方式为通过自动摘要系统自动生成摘要,现有的自动摘要系统可根据用户输入的文档,对文档中的段落进行抽取,然而现有的自动生成方式仅能对从段落中抽取到的句子进行简单提取,无法直接生成精炼、准确的新闻摘要。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明第一方面实施例在于提出一种文档摘要的生成方法,该方法生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
本发明的第二方面实施例在于提出一种文档摘要的生成装置。
为了实现上述目的,本发明第一方面实施例的文档摘要的生成方法,包括:获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对所述摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
根据本发明实施例的文档摘要的生成方法,获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,以及对摘要候选句进行压缩处理,并对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
为了实现上述目的,本发明第二方面实施例的文档摘要的生成装置,包括:获得模块,用于获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;压缩处理,用于对所述摘要候选句进行压缩处理;以及生成模块,用于对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
根据本发明实施例的文档摘要的生成装置,通过获得模块获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,并通过压缩模块对摘要候选句进行压缩处理,以及通过生成模块对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
附图说明
图1是一个包含新闻信息的页面的示意图。
图2是根据本发明一个实施例的文档摘要的生成方法的流程图。
图3是根据本发明一个实施例的摘要文章的示意图。
图4是根据本发明一个实施例的压缩摘要候选句的流程图。
图5是根据本发明一个实施例的文档摘要的生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文档摘要的生成方法及装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410665760.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:头相关脉冲响应数据集处理方法
- 下一篇:一体化显控单元