[发明专利]一种对文档集进行批量单文档摘要的方法及系统有效

申请号：	200610114590.6	申请日：	2006-11-16
公开（公告）号：	CN101187919A	公开（公告）日：	2008-05-28
发明（设计）人：	万小军;杨建武;吴於茜;陈晓鸥	申请（专利权）人：	北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司	代理人：	李欣
地址：	100871北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档进行批量摘要方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语言文字处理及信息检索技术领域，具体涉及一种对文档集进行批量单文档摘要的方法及系统。

背景技术

单文档自动摘要指自动从给定文档中摘取精要或要点，其目的是通过对原文本进行压缩、提炼，为用户提供简明扼要的内容描述。单文档自动摘要是自然语言处理领域的核心问题之一，广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。

概括来说，多文档摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术，在对原文档进行句法、语义分析之后，利用信息抽取或自然语言生成技术产生新的句子，从而形成摘要。基于句子抽取的方法比较简单实用，不需要利用深层的自然语言理解技术；该方法在对文本进行分句之后，对每个句子赋予一定权重，反映其重要性，然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性，这个过程通常需要综合考虑句子的不同特征，例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术，现有文献中记载了多种关于单文档自动摘要的方法。

文章The automated acquisition of topic signatures for text Summarization(作者为C.-Y.Lin和E.Hovy，发表于2000年出版的论文集：Proceedings ofACL2000)描述了SUMMARIST系统，该系统利用主题签名(Topic Signature)来表示文档主题，一个主题签名由一个主题概念和若干相关词汇组成，然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexicalchains(作者为H.G.Silber和K.McCoy，发表于2000年出版的论文集：Proceedings of the 5^th International Conference on Intelligent User Interfaces)先对文档进行分析，得到词汇链(Lexical Chain)，一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A.trainable documentsummarizer(作者为J.Kupiec，J.Pedersen和F.Chen，发表于1995年出版的论文集：Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题，利用贝叶斯分类器综合多种特征对句子进行选择。文章The use ofMMR，diversity-based reranking for reordering documents and producingsummaries(作者为Jaime Carbonell和Jade Goldstein，发表于1998年出版的论文集：Proceedings of SIGIR1998)描述了最大边缘相关性(MMR)技术，常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic textsummarization using relevance measure and latent semantic analysis(作者为Y.H.Gong和X.Liu，发表于2001年出版的论文集：Proceedings of SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子，并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后，就从文档中去掉这个句子中包含的词，这样保证每次抽取句子的新颖性。此外，文章TextRank：bringing order into texts(作者为R.Mihalcea和P.Tarau，发表于2004年出版的论文集：Proceedings of EMNLP2004)和文章A language independent algorithmfor single and multiple document summarization(作者为R.Mihalcea和P.Tarau，发表于2005年出版的论文集：Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点，根据句子之间的相似关系建立连接，然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”，相邻的句子之间互相“选举”或“推荐”，一个句子获得的“选举”或“推荐”越多，该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司，未经北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200610114590.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对文档集进行批量单文档摘要的方法及系统有效

专利文献下载