[发明专利]文档摘要的生成方法及装置在审
申请号: | 201410665760.4 | 申请日: | 2015-08-03 |
公开(公告)号: | CN104503958A | 公开(公告)日: | 2015-07-29 |
发明(设计)人: | 朱少杰;吕雅娟;肖欣延;付波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 摘要 生成 方法 装置 | ||
1.一种文档摘要的生成方法,其特征在于,包括:
获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;
对所述摘要候选句进行压缩处理;以及
对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
2.根据权利要求1所述的方法,其特征在于,所述使用预设特征对所述文档进行处理,以获得摘要候选句,包括:
对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取;
获得所提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分数;以及
按照分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
3.根据权利要求1所述的方法,其特征在于,所述对所述摘要候选句进行压缩处理,包括:
以子句为单位对所述摘要候选句进行压缩处理。
4.根据权利要求1所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要,包括:
对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
5.根据权利要求3所述的方法,其特征在于,所述以子句为单位对所述摘要候选句进行压缩处理,包括:
确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合;
基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及
基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
6.根据权利要求4所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要,包括:
针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度,若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小于等于所述第一预设阈值,则保留所述当前摘要候选句;
计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值,则保留参与计算的两个摘要候选句;以及
按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生成所述文档的摘要。
7.一种文档摘要的生成装置,其特征在于,包括:
获得模块,用于获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;
压缩处理,用于对所述摘要候选句进行压缩处理;以及
生成模块,用于对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
8.根据权利要求7所述的装置,其特征在于,所述获得模块,具体用于:
对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取;获得所提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分数;以及按照分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
9.根据权利要求8所述的装置,其特征在于,所述压缩模块,具体用于:
以子句为单位对所述摘要候选句进行压缩处理。
10.根据权利要求7所述的装置,其特征在于,所述生成模块,具体用于:
对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
11.根据权利要求9所述的装置,其特征在于,所述压缩模块,具体用于:
确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合;基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
12.根据权利要求10所述的装置,其特征在于,所述生成模块,具体用于:
针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度,若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小于等于所述第一预设阈值,则保留所述当前摘要候选句;
计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值,则保留参与计算的两个摘要候选句;以及
按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生成所述文档的摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410665760.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:头相关脉冲响应数据集处理方法
- 下一篇:一体化显控单元