[发明专利]摘要生成方法、装置、服务器及存储介质有效
申请号: | 201811524698.1 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109657054B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 李法远;陈思姣;罗雨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 装置 服务器 存储 介质 | ||
1.一种摘要生成方法,其特征在于,所述方法包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要;其中,针对目标文本,不同主题下选出的摘要句不同,生成的摘要也不同;
其中,所述摘要模型为循环神经网络模型,在循环神经网络的预测层,利用构建的句子特征来预测句子被选作摘要句的概率值,其中,所述句子特征至少包括内容特征、显著性特征、新颖性特征、主题相关性特征、句子在文本中绝对位置、相对位置的项以及偏置项,且所述显著性特征与句子的向量表示和文本向量表示相关,所述新颖性特征与句子的向量表示和句子上文的向量表示相关,所述主题相关性特征与句子的向量表示和主题的向量表示相关。
2.根据权利要求1所述的方法,其特征在于,在对目标文本进行切句,得到句子集合之前,所述方法还包括:
对目标文本进行预处理,包括如下操作中至少之一:
利用正则表达式进行匹配,过滤目标文本中的网页链接;或
利用关键词匹配,过滤目标文本中的广告句子和网页代码;或
如果目标文本为符合预设条件的长文本,则按照预设规则对目标文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。
3.根据权利要求1所述的方法,其特征在于,摘要模型的训练过程包括:
获取用于训练的样本数据集,以及其中每个样本数据对应的主题,并对每个样本数据中的摘要句和非摘要句进行标注;
利用带有标注的样本数据集和每个样本数据对应的主题,对循环神经网络进行训练,得到所述摘要模型。
4.根据权利要求3所述的方法,其特征在于,所述对每个样本数据中的摘要句和非摘要句进行标注,包括:
将任一个样本数据作为当前样本数据,遍历当前样本数据中的每个句子,确定目标子集;
如果目标子集所构成的摘要与当前样本数据的人工摘要的rouge得分最大,则对该目标子集中的每个句子标注为摘要句,对当前样本数据中目标子集之外的句子标注为非摘要句。
5.根据权利要求4所述的方法,其特征在于,所述遍历当前样本数据中的每个句子,确定目标子集,包括:
a.将目标子集初始化为空集,rouge得分为零;
b.在当前样本数据中,逐一计算当前目标子集之外的每个句子添加到当前目标子集后,当前目标子集与所述人工摘要的rouge得分;
c.如果存在能提升当前目标子集得分的候选句子集合,则将候选句子集合中使得当前目标子集得分提升最多的句子添加到当前目标子集中,并更新当前目标子集对应的rouge得分;
重复执行上述b操作和c操作,直到不存在能够提升当前目标子集得分的句子,并将此时对应的当前目标子集作为最终的目标子集。
6.根据权利要求1所述的方法,其特征在于,所述预测层为:
P(y=1|h,s,d)=σ(Wch+hTWsd-hTWntanh(s)+Wappa+Wrppr+hTWcrt+b)
其中,h是句子的向量表示,d是文本向量表示,s是句子上文的向量表示,t是主题的向量表示,pa是句子在文本中的绝对位置,pr是句子在当前段落的位置,b是偏置项,Wc、Ws、Wn、Wap、Wrp、Wcr为各项的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811524698.1/1.html,转载请声明来源钻瓜专利网。