[发明专利]单文档摘要生成方法有效
申请号: | 201310072118.0 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103136359A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 薛世帅;郭成林;彭春林;刘红玉;高云棋;刘丹 | 申请(专利权)人: | 宁波成电泰克电子信息技术发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙) 51227 | 代理人: | 周永宏 |
地址: | 315040 浙江省宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 摘要 生成 方法 | ||
技术领域
本发明属于计算机应用技术领域,具体涉及单文档摘要的生成方法。
背景技术
随着电子文本数量的剧增,快速获取文本信息的需求越来越强烈。作为浓缩文本信息的技术,自动摘要可以扮演重要的角色。自动摘要的宗旨是为用户提供简短的文本表示。在保留尽可能多的原文信息的同时,形成尽可能短的摘要。对于一个理想的抽取式摘要而言,具有三个基本特征:源自文本、保留重要信息、长度短。按照摘要源自的文本个数,可分为单文本摘要和多文本摘要。按照摘要的方式,又分成生成式摘要和抽取式摘要。在抽取式摘要中,从文本中选取代表性句子是难点所在。
自动摘要研究始于1958年,由美国IBM公司的Luhn开创了自动摘要研究的先河。接着,美国马里兰州大学的Edmundson、美国俄亥俄州立大学的Rush、英国Lancaster大学的Paice等选取字词的不同特征作为提取摘要的关键。这一阶段人们只是围绕文章字词层面进行特征提取,只是简单地依赖粗糙的统计数据和不同性质的特征的简单线性叠加。
随后开始考虑文档的句法特征和语义特征,建立起以人工智能特别是计算语言学为基础的方法。美国耶鲁大学的Schank、意大利Udine大学的Fum等、美国GE研究开发中心的Rau等分别应用脚本分析、一阶谓词逻辑推理和框架等表示文档的结构和意义,从而分析和推理得到文档的摘要。
至此,自动摘要研究分为两大阵营:基于统计的机械摘要和基于意义的理解摘要。
单文档自动文摘是自然语言理解领域中的一个重要的研究方向。进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前又成为人们日益关注的研究热点。
现有的技术要么将单文档扩展为多文档利用多文档摘要的方法进行单文档摘要,要么只利用单文档进行摘要,但仍未充分利用单文档的内容,造成了摘要的提取精度不高。
发明内容
针对现有技术存在的上述问题,本发明提出了一种单文档摘要生成方法。
本发明的技术方案为:一种单文档摘要生成方法,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
本发明的有益效果:本发明方法的基于段落划分生成单文档摘要,根据文章的外在特征抽取能够表达其中心意思的原文部分句子作为摘要,具体通过计算段落信息在文档中的权值,然后计算句子在段落中的权值,来评价句子中在文章中重要性。本发明的方法将词的相似度和命名实体识别引入单文档摘要中,提高摘要的提取精度,同时利用了single-pass提高了的聚类的速度,能够准确的提取单文档摘要,对于新闻类型和公告类型的文档具有非常高的摘要准确率。
附图说明
图1为本发明的单文档摘要生成方法流程示意图
图2为实施例中语义聚类算法的流程示意图。
图3为实施例中Single-pass段落聚类的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明做进一步详细说明。
本发明实施例单文档摘要方法,流程示意图如图1所示,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
即对待摘要文档的段落进行聚类,将段落划分为语义块,然后找出每个语义块的核心语句,最后按核心语句在文档中的出现顺序连接句子,即可得到文档的主要信息摘要。本发明主要分为三个步骤:语义聚类划分、句子打分、核心语句连接。
图2为对段落进行聚类的流程示意图,设设待摘要文档T有N个自然段,即T=P1∪P2∪P3…Pj…∪Pn,其中,Pj表示第j个自然段。
具体包括如下分步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波成电泰克电子信息技术发展有限公司,未经宁波成电泰克电子信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072118.0/2.html,转载请声明来源钻瓜专利网。