[发明专利]一种文本摘要提取方法、装置、服务器及可读存储介质在审

专利信息
申请号: 201911020426.2 申请日: 2019-10-25
公开(公告)号: CN110781291A 公开(公告)日: 2020-02-11
发明(设计)人: 刘彤 申请(专利权)人: 北京市计算中心
主分类号: G06F16/34 分类号: G06F16/34;G06F40/211;G06F40/253;G06F40/289
代理公司: 暂无信息 代理人: 暂无信息
地址: 100094 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 句子 文本 位置分布 摘要提取 可读存储介质 数据处理技术 断句 个数设置 工作效率 精度需求 领域技术 精准度 线索 服务器 筛选 压缩 分析 研究
【说明书】:

发明提供了一种文本摘要提取方法、装置、服务器及可读存储介质,涉及数据处理技术领域技术领域,包括:步骤一,获取待处理文本;步骤二,断句处理,步骤三,提取关键词,设置句子的权值;分析句子位置分布,设置句子的权值;提取线索词,设置句子的权值;步骤四,结合步骤三中关键词个数、句子位置分布、线索词个数设置的权值来计算获得每个句子的最终权值;步骤五,根据步骤四中的句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。总之,本发明是一种信息更加全面、效率更高、精准度更高的文本摘要提取方法、装置,能够提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。

技术领域

本发明涉及数据处理技术领域,尤其是涉及一种文本摘要提取方法、装置、服务器及可读存储介质。

背景技术

摘要又称概要、内容提要等,意思是摘录要点或摘录下来的要点。摘要是以提供文章内容梗概为目的,不加评论和补充解释,简明、确切地表达文章重要内容的短文。摘要应具有独立性和自明性,并且拥有与文献同等量的主要信息,即我们在不阅读全文的情况才,就能获得必要的信息,利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已经不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。

但是,文本摘要是目前自然语言处理领域中比较艰难的任务,别说是用机器来提取摘要,就连专家人工提取摘要的时候都需要具备很强的语言阅读理解能力和归纳总结能力。

现有的自动摘要方法有抽取式和概括式方法。概括式摘要提取方法需要较多的数据样本,并需要人工标注,比较繁琐。抽取式摘要方法关注文章中的句子重要程度,并根据压缩比例抽取相应的句子组成摘要内容,抽取式摘要提取方法相比于概括式方法较成熟,也是目前应用的比较多的提取方法。

但是,传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容因此,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,因此,亟待研究一种信息更加全面、效率更高、精准度更高的摘要提取方法,来满足人们的需求。

应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明的目的在于提供一种信息更加全面、效率更高、精准度更高的文本摘要提取方法、装置、服务器及可读存储介质,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。

为实现上述目的,本发明提供了以下技术方案:

本发明提供了一种文本摘要提取方法,包括:

步骤一,获取待处理文本;

步骤二,对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;

步骤三,提取关键词,设置句子的权值:对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;

分析句子位置分布,设置句子的权值:根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;

提取线索词,设置句子的权值:根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市计算中心,未经北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911020426.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top