[发明专利]文档集摘要获取方法及装置无效
申请号: | 200810239344.2 | 申请日: | 2008-12-10 |
公开(公告)号: | CN101751425A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 万小军;杨建武;肖建国 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 摘要 获取 方法 装置 | ||
技术领域
本发明涉及语言文字处理领域以及信息检索技术领域,尤其涉及一种文档集摘要获取方法及装置。
背景技术
随着互联网技术的快速推广和应用,文档集摘要的获取技术已经被广泛的应用于文本/网站内容的检索领域。文档集摘要获取技术是指:由计算机系统自动从一个包含多篇文档的文档集中,获取反映该文档集中文档内容要点的信息。该技术可以为用户提供文档集简明扼要的内容描述,为用户查阅大量文档内容提供了便利。例如,某互联网门户网站所提供的新闻服务的基本实现原理为首先收集网络上的各种新闻信息,并按照主题和文档类型,对收集到的新闻信息进行归类,形成多个文档集,使用上述文档集摘要的获取技术获取每个文档集的摘要,以便于用户能够快捷方便的浏览感兴趣的新闻。
现有的文档集摘要获取方法主要分为两类:基于句子抽取(Extraction)的文档集摘要获取方法和基于句子生成(Abstraction)的文档集摘要获取方法。其中,基于句子抽取的文档集摘要获取方法的实现原理为对文档集中的每篇文档,按句进行分割,根据预定的句子权重值衡量指标,例如句子位置、词语类簇、主题签名、关键词频率/倒序索引频率(TF/IDF)等,确定分割得到的每个句子在文档集中的重要性权重值,选择重要性权重值最大的至少一个句子形成所述文档集的摘要。基于句子生成的文档集摘要获取方法的实现原理为根据自然语言理解技术,对文档集中的每个句子进行语法和语义分析,并使用信息抽取或自然语言生成技术产生新的句子,从而获得所述文档集的摘要。从以上的描述可以看出,基于句子抽取的文档集摘要获取方法所获取的文档集的摘要,是由文档集中文档所包含的已有句子组成的,不需要借助复杂的深层自然语言理解技术对文档集中所包含内容信息进行分析,因此基于句子抽取的文档集摘要获取方法与基于句子生成的文档集摘要获取方法相比,实现较为简单。
现有的基于句子抽取的文档集摘要获取方法在确定文档集中每个句子的重要性权重值时,除上述介绍的基于预定的句子权重值衡量指标的方式之外,也可以使用基于图模型的方法。例如,文章Summarizing Similarities andDifferences Among Related Documents(作者是I.Mani and E.Bloedorn,发表于2000年出版的期刊Information Retrieval)公开了一种名为WebSumm的方法,WebSumm方法利用图连接模型,其中图连接模型中的顶点分别代表文档集中的每个句子,假设与其它顶点连接越多的顶点所代表的句子的重要性越高,以此来对确定文档集中的句子的重要性权重值,从而获得文档集的摘要。
在上述介绍的基于图模型确定文档集中每个句子的重要性权重值的方法中,只考虑了文档集中句子之间的关系,没有考虑句子与文档的关系对句子的重要性的影响,即假定文档集中所有文档的重要性都是相等的,然而通常文档集中不同文档的重要性是不同的,现有的基于图模型的文档集摘要获取方法并不能反映文档集中不同文档的重要性差异对获取文档集摘要结果的影响,因此文档集摘要的获取效果不佳。
发明内容
本发明实施例提供一种文档集摘要获取方法及装置,用以解决现有基于图模型获取文档集摘要的方式文档集摘要获取效果不佳的问题。
本发明实施例提供的技术方案如下:
一种文档集摘要获取方法,包括:
提取文档集中各个文档中包含的各个句子,组成句子集合;
基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;
根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。
一种文档集摘要获取装置,包括:
句子集合提取单元,用于提取文档集中各个文档中包含的各个句子,组成句子集合;
句子重要性权重值确定单元,用于基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;
摘要确定单元,用于根据句子重要性权重值确定单元确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。
本发明实施例提出的多文档摘要获取方法,利用了文档集中句子和文档之间的关系,考虑了文档集中不同文档重要性的差异对句子重要性权重值的影响,因此能够更准确的确定文档集中句子的重要性权重值,并选择重要性权重值高的句子组成文档集摘要,因此能够获得更佳的文档集摘要获取效果。
附图说明
图1为本发明实施例的主要实现原理流程图;
图2为本发明实施例中文档集二部图的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239344.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据压缩/解压缩方法及其装置
- 下一篇:一种以太网环网算法切换方法