[发明专利]一种对文档集进行批量单文档摘要的方法及系统有效
| 申请号: | 200610114590.6 | 申请日: | 2006-11-16 |
| 公开(公告)号: | CN101187919A | 公开(公告)日: | 2008-05-28 |
| 发明(设计)人: | 万小军;杨建武;吴於茜;陈晓鸥 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 李欣 |
| 地址: | 100871北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 进行 批量 摘要 方法 系统 | ||
技术领域
本发明属于语言文字处理及信息检索技术领域,具体涉及一种对文档集进行批量单文档摘要的方法及系统。
背景技术
单文档自动摘要指自动从给定文档中摘取精要或要点,其目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。单文档自动摘要是自然语言处理领域的核心问题之一,广泛应用于文档/Web搜索引擎、企业内容管理系统和知识管理系统(如方正博思和方正智思)等。
概括来说,多文档摘要的方法可分为基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。抽取句子的关键一步是对句子赋予权值反映其重要性,这个过程通常需要综合考虑句子的不同特征,例如词频、句子位置、线索词(Cue Words)、垃圾词(Stigma Words)等。目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中记载了多种关于单文档自动摘要的方法。
文章The automated acquisition of topic signatures for text Summarization(作者为C.-Y.Lin和E.Hovy,发表于2000年出版的论文集:Proceedings ofACL2000)描述了SUMMARIST系统,该系统利用主题签名(Topic Signature)来表示文档主题,一个主题签名由一个主题概念和若干相关词汇组成,然后根据主题签名抽取句子形成摘要。文章Efficient text summarization using lexicalchains(作者为H.G.Silber和K.McCoy,发表于2000年出版的论文集:Proceedings of the 5th International Conference on Intelligent User Interfaces)先对文档进行分析,得到词汇链(Lexical Chain),一个词汇链是文档中一个相关词的序列。每个句子以其包含的总词链值作为权重。文章A.trainable documentsummarizer(作者为J.Kupiec,J.Pedersen和F.Chen,发表于1995年出版的论文集:Proceedings of SIGIR1995)将摘要问题看作是句子是否属于摘要的二类划分问题,利用贝叶斯分类器综合多种特征对句子进行选择。文章The use ofMMR,diversity-based reranking for reordering documents and producingsummaries(作者为Jaime Carbonell和Jade Goldstein,发表于1998年出版的论文集:Proceedings of SIGIR1998)描述了最大边缘相关性(MMR)技术,常用来抽取既跟文档查询相关又具有一定新颖性的句子。文章Generic textsummarization using relevance measure and latent semantic analysis(作者为Y.H.Gong和X.Liu,发表于2001年出版的论文集:Proceedings of SIGIR2001)采用了隐含语义分析(LSA)从新的语义空间抽取句子,并且根据相关度量准则(Relevance Measure)在每次抽取一个跟文档最相关的句子后,就从文档中去掉这个句子中包含的词,这样保证每次抽取句子的新颖性。此外,文章TextRank:bringing order into texts(作者为R.Mihalcea和P.Tarau,发表于2004年出版的论文集:Proceedings of EMNLP2004)和文章A language independent algorithmfor single and multiple document summarization(作者为R.Mihalcea和P.Tarau,发表于2005年出版的论文集:Proceedings of IJCNLP2005)提出了基于图排列的方法对文档中句子进行排列。文档中的句子作为图中的顶点,根据句子之间的相似关系建立连接,然后基于该图利用类似PageRank或HITS算法计算句子重要性。这类方法基于句子对句子的“选举”或“推荐”,相邻的句子之间互相“选举”或“推荐”,一个句子获得的“选举”或“推荐”越多,该句子越重要。“选举”或“推荐”者的重要程度决定了其做出的“选举”或“推荐”的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司,未经北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610114590.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢筋的加工方法及装置
- 下一篇:黄鳝钓





