[发明专利]一种文本摘要提取方法、装置、服务器及可读存储介质在审
| 申请号: | 201911020426.2 | 申请日: | 2019-10-25 |
| 公开(公告)号: | CN110781291A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 刘彤 | 申请(专利权)人: | 北京市计算中心 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/253;G06F40/289 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100094 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 文本 位置分布 摘要提取 可读存储介质 数据处理技术 断句 个数设置 工作效率 精度需求 领域技术 精准度 线索 服务器 筛选 压缩 分析 研究 | ||
1.一种文本摘要提取方法,其特征在于,包括:
步骤一,获取待处理文本;
步骤二,对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
步骤三,提取关键词,设置句子的权值:对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;
分析句子位置分布,设置句子的权值:根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
提取线索词,设置句子的权值:根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大;
步骤四,结合所述步骤三中所述关键词个数、所述句子位置分布、所述线索词个数设置的所述权值来计算获得每个所述句子的最终权值;
步骤五,根据所述步骤四中的所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
2.根据权利要求1所述的文本摘要提取方法,其特征在于,所述步骤二中的所述断句处理为:依据基于所述待处理文本包含的预置标点符号或者停用词得到的分割点,获取所述待处理文本对应的断句结果。
3.根据权利要求2所述的文本摘要提取方法,其特征在于,所述预置标点符号为句号、问号、感叹号、省略号或分号。
4.根据权利要求1所述的文本摘要提取方法,其特征在于,所述压缩比例为0.2:十个句子,筛选权值靠前的两个句子。
5.根据权利要求1所述的文本摘要提取方法,其特征在于,所述步骤三中根据TFIDF对所述断句结果的每个句子提取关键词:
词语的TF-IDF值是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,如果词语在语料库中多篇文本都反复出现,则说明所述词语重要性低于其他词语;
tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文本dj中的出现次数,∑knk,j是在文本dj中所有词语出现的次数之和,|D|是语料库中的文本总数,|{j:ti∈dj}+1|代表包含词语ti的文本数目。
6.根据权利要求1所述的摘要提取方法,其特征在于,所述步骤三中预设的所述线索词库中的所述线索词为建议、希望、所以、因此、重要、另外、此外、因而或者总之,含有所述线索词个数越多的句子,所述权值越大。
7.一种文本摘要提取装置,其特征在于,所述文本摘要提取装置包括依次连接的文本获取模块(101)、断句处理模块(201)、句子权值设置模块(301)、权值计算模块(401)、文本摘要提取模块(501):
所述文本获取模块(101)用于获取待处理文本;
所述断句处理模块(201)用于对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
所述句子权值设置模块(301)用于对所述断句结果的句子分别设置权值;
所述权值计算模块(401)结合所述句子权值设置模块(301)设置的所述权值来计算获得每个所述句子的最终权值;
所述文本摘要提取模块(501)根据所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市计算中心,未经北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911020426.2/1.html,转载请声明来源钻瓜专利网。





