[发明专利]一种文本摘要生成方法和装置有效
申请号: | 201711281994.9 | 申请日: | 2017-12-07 |
公开(公告)号: | CN108304445B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 李想 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100031 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 生成 方法 装置 | ||
本申请提供一种文本摘要生成方法和装置。方法包括:将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;按照预设的第一切分方法,对目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;计算句子集合中两两句子之间的相似度;基于句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;基于排序的前N个句子,生成所述文本文档的文本摘要。本申请在兼顾文本处理速度性能的同时,提高了文本摘要生成的准确性。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本摘要生成方法和装置。
背景技术
摘要是能够反映某一文本的中心内容的简单连贯的短文,能够帮助人们在阅读海量文献时缩短阅读时间。
文本摘要生成技术作为有效得浏览和查阅文本的手段之一,得到了快速的发展。文本摘要生成技术是知识管理系统核心功能模块之一,通过知识内容或者知识关键字生成知识摘要。
目前,文本摘要的生成方法几乎完全依赖于关键字,通过采用例如定位文本关键字所在位置的段落的方法,将满足一定字数阈值的段落确定为文本摘要,然而这种文本摘要生成方法无法避免文本中和整篇文本关系比较紧密的干扰句(比如不适合出现在摘要中的句子)的影响,导致生成的文本摘要的准确性较低。
发明内容
有鉴于此,本申请提供一种文本摘要生成方法,在兼顾文本处理速度性能的同时,提高文本摘要生成的准确性。技术方案如下:
基于本申请的一方面,本申请提供一种文本摘要生成方法,包括:
将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
计算所述句子集合中两两句子之间的相似度;
基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
可选地,所述基于排序的前N个句子,生成所述文本文档的文本摘要之前,所述方法还包括:
针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
将排序后的句子中,属于所述第一资源池的句子滤除。
可选地,所述将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中之后,所述方法还包括:
基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
将排序后的句子中,属于所述第二资源池的句子滤除。
可选地,所述得到句子集合之后,所述方法还包括:
对所述句子集合中的句子进行分词,去除无意义的词语。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711281994.9/2.html,转载请声明来源钻瓜专利网。