[发明专利]一种对文档集进行批量单文档摘要的方法及系统有效

专利信息
申请号: 200610114590.6 申请日: 2006-11-16
公开(公告)号: CN101187919A 公开(公告)日: 2008-05-28
发明(设计)人: 万小军;杨建武;吴於茜;陈晓鸥 申请(专利权)人: 北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 代理人: 李欣
地址: 100871北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文档 进行 批量 摘要 方法 系统
【说明书】:

技术领域

发明属于语言文字处理及信息检索技术领域,具体涉及一种对文档集进行批量单文档摘要的方法及系统。

背景技术

单文档自动摘要指自动从给定文档中摘取精要或要点,其目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。单文档自动摘要是自然语言处理领域的核心问题之一,广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。

概括来说,多文档摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性,这个过程通常需要综合考虑句子的不同特征,例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中记载了多种关于单文档自动摘要的方法。

文章The automated acquisition of topic signatures for text Summarization(作者为C.-Y.Lin和E.Hovy,发表于2000年出版的论文集:Proceedings ofACL2000)描述了SUMMARIST系统,该系统利用主题签名(Topic Signature)来表示文档主题,一个主题签名由一个主题概念和若干相关词汇组成,然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexicalchains(作者为H.G.Silber和K.McCoy,发表于2000年出版的论文集:Proceedings of the 5th International Conference on Intelligent User Interfaces)先对文档进行分析,得到词汇链(Lexical Chain),一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A.trainable documentsummarizer(作者为J.Kupiec,J.Pedersen和F.Chen,发表于1995年出版的论文集:Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题,利用贝叶斯分类器综合多种特征对句子进行选择。文章The use ofMMR,diversity-based reranking for reordering documents and producingsummaries(作者为Jaime Carbonell和Jade Goldstein,发表于1998年出版的论文集:Proceedings of SIGIR1998)描述了最大边缘相关性(MMR)技术,常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic textsummarization using relevance measure and latent semantic analysis(作者为Y.H.Gong和X.Liu,发表于2001年出版的论文集:Proceedings of SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子,并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后,就从文档中去掉这个句子中包含的词,这样保证每次抽取句子的新颖性。此外,文章TextRank:bringing order into texts(作者为R.Mihalcea和P.Tarau,发表于2004年出版的论文集:Proceedings of EMNLP2004)和文章A language independent algorithmfor single and multiple document summarization(作者为R.Mihalcea和P.Tarau,发表于2005年出版的论文集:Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点,根据句子之间的相似关系建立连接,然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”,相邻的句子之间互相“选举”或“推荐”,一个句子获得的“选举”或“推荐”越多,该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司,未经北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200610114590.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top