[发明专利]一种多文档摘要句的生成方法在审
| 申请号: | 201510092922.4 | 申请日: | 2015-03-02 |
| 公开(公告)号: | CN104778157A | 公开(公告)日: | 2015-07-15 |
| 发明(设计)人: | 陈健;赖旦冉 | 申请(专利权)人: | 华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510006 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 摘要 生成 方法 | ||
技术领域
本发明涉及自动化摘要的研究领域,特别涉及一种一种多文档摘要句的生成方法。
背景技术
随着互联网的普及以及各种网络应用的飞速发展,便捷的获取方式以及齐全的种类使其成为人们获取各种信息的主要渠道。多文档摘要通过对同一主题下的多个原始文本进行处理,从大量信息中提取出主要信息,经过重新组合、润色后,生成一段能全面准确反映原始文本主要内容且简短、连贯、不含冗余信息的文字,呈现给用户阅读。摘要句抽取即从描述相关话题的类中抽取能够表达文档主题信息、内容充实的句子作为摘要句。根据主题的重要程度从中选取句子,使摘要句尽量概括主题的重要内容。常见的摘要句生成方法有以下几种:基于统计的方法、基于图的方法、基于篇章结构的方法和基于机器学习的方法。
基于统计的方法是自动文摘最早处理单文档文摘时就使用的方法,一直沿用至现在多文档文摘的研究中。该方法的核心是利用从词频或分布等特征中导出的统计信息去计算词或句子的重要性,进而对句子进行排序,抽取排在前面的几个句子形成所谓的自动文摘。这种方法需要多个特征配合使用才能取得较好的文摘结果,在特征选择和调参上存在大量的工作;另一方面,该方法无法体现更深层的语义分析,从而也无法表达精确的信息。
基于图的方法把顺序的多文档集转换为一个无向图,一般结点表示文本片段,结点间的边为片断之间的关系(如相似度,语义关系等)。通过对图的拓扑结构分析,获得文本片段在整个文档集中的重要度。这种方法的缺点在于计算复杂度较高,容易陷入局部最优。
基于篇章结构的方法不以单个句子的评分为目标,而是以最终机器文摘所需达到的各种指标为算法的直接目标。文摘既是全文的压縮,也是全文的替代,文摘句之间并非独立存在,而更应是组合成文的关系,所以全局优化的思路更贴合文摘的特性。但这种方法以机器文摘的量化指标为目的,而忽略了人在阅读时呈现的更自然的特性,如可读性、连贯性、一致性、内容含量等。
基于机器学习的方法从标准文摘中获取监督信息,通过提取一系列的句子特征,训练句子分类或排序模型,实现文摘句的提取。机器学习的方法受训练集影响较大,而自动文摘领域现有数据集的规模有限,这使得基于机器学习的方法的性能受限。同时,监督信息的获取也是一大问题。受人力所限,现有数据集中提供的标准文摘数量不多,所以能获取的监督信息数量较少;同时大部分标准文摘为理解式文摘,难以在多文档集中找到一一匹配的原句,所以如何解决模糊匹配问题、准确有效地提取监督信息也是基于机器学习的方法中的技术难点。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种多文档摘要句的生成方法。
为了达到上述目的,本发明采用以下技术方案:
一种多文档摘要句的生成方法,包括下述步骤:
S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;
S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;
S3、对每个子主题下的句子进行评分,并进行排序;
S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
优选的,步骤S2中,子主题的重要度由其覆盖的文档数和包含的句子数目共同评定,如果一个子主题所涉及的文档数越多,包含的句子数目越多,该子主题则越重要。具体为:假设子主题共覆盖了DCi个文档,包含了SCi个句子,则该子主题的重要度得分为:
其中,λD+λS=1,用于调节文档覆盖度和句子包含数目在评分函数中的作用,N是所有的文档数目,M是所有的句子数目。
优选的,步骤S3中,句子的重要程度由以下两个因素决定,1)应包含尽量多的语义概念;2)作为摘要句应尽量短;具体为:假设句子包含了CCi个语义概念,长度为Li,则该句子的重要度得分为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社,未经华南理工大学;广州三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510092922.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据搜索处理方法及装置
- 下一篇:一种文档流程控制方法及装置





