[发明专利]关键句提取方法及装置有效
| 申请号: | 201911051620.7 | 申请日: | 2019-10-31 |
| 公开(公告)号: | CN110852064B | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 费志辉;李超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/211;G06F40/289;G06F16/33 |
| 代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 汪阮磊 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关键 提取 方法 装置 | ||
本申请实施例提供了一种关键句提取方法及装置,该方法先获取需要确定关键句的目标文章,然后对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息,再对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息,最后根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句;即本申请基于神经网络模型即可确定文章的关键句,不需人工参与,并且在寻找文章的关键句时,会根据候选句及候选句对应的上下文信息得到候选句的特征信息,使得候选句考虑了候选句本身以及文章的其他句子信息,从而使得得到的关键句考虑了全文,使得得到的关键句较为准确。
技术领域
本申请涉及数据处理领域,尤其是涉及一种关键句提取方法及装置。
背景技术
为了得到文章的标题,会通过在文章中寻找关键句,将关键句作为文章的标题,由于文章中具有数量较多的句子,且随着文章内容的增大,句子的数量增大,使得寻找关键句较难,且寻找的关键句不准确。
为了保证关键句的准确性,当前需通过人工寻找文章中的关键句。
发明内容
本申请提供一种关键句提取方法及装置,以解决当前需要人工确定文章关键句的技术问题。
为解决上述技术问题,本申请实施例提供以下技术方案:
一方面,本申请实施例提供了一种关键句提取方法,其包括:
获取需要确定关键句的目标文章;
对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
一方面,本申请实施例提供了一种关键句提取装置,其包括:
获取模块,用于获取需要确定关键句的目标文章;
提取处理模块,用于对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
特征获取模块,用于对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
关键句获取模块,用于根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一实施例中,提取处理模块用于对目标文章进行分句处理,得到按序排列的分句;从分句中选择分句作为候选句;根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于确定分句的字数;从分句中选择字数处于预设字数范围的分句作为候选句。
在一实施例中,提取处理模块用于对目标文章提取出现频率大于预设频率的词,将出现频率大于预设频率的词作为关键分词;从分句中寻找具有关键分词的分句,得到具有关键分词的分句;将具有关键分词的分句作为候选句。
在一实施例中,特征获取模块用于获取训练后的神经网络模型;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911051620.7/2.html,转载请声明来源钻瓜专利网。





