[发明专利]一种文本摘要生成方法和装置有效
申请号: | 201711281994.9 | 申请日: | 2017-12-07 |
公开(公告)号: | CN108304445B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 李想 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100031 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 生成 方法 装置 | ||
1.一种文本摘要生成方法,其特征在于,包括:
将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
计算所述句子集合中两两句子之间的相似度;
基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数;
所述基于排序的前N个句子,生成所述文本文档的文本摘要之前,所述方法还包括:
针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
将排序后的句子中,属于所述第一资源池的句子滤除;
所述将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中之后,所述方法还包括:
基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
将排序后的句子中,属于所述第二资源池的句子滤除。
2.根据权利要求1所述的方法,其特征在于,所述得到句子集合之后,所述方法还包括:
对所述句子集合中的句子进行分词,去除无意义的词语。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户输入的目标词语;
判断所述目标词语是否存在于排序的句子中;
如果不存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;
如果存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
4.一种文本摘要生成装置,其特征在于,包括:
段落合并处理单元,用于将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
第一切分单元,用于按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
相似度计算单元,用于计算所述句子集合中两两句子之间的相似度;
相似度权重获取单元,用于基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
排序单元,用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
文本摘要生成单元,用于基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数;
第二切分单元,用于针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
第一处理单元,用于将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
第一滤除单元,用于将排序后的句子中,属于所述第一资源池的句子滤除;
第二处理单元,用于基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
第二滤除单元,用于将排序后的句子中,属于所述第二资源池的句子滤除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711281994.9/1.html,转载请声明来源钻瓜专利网。