[发明专利]一种文献摘要提取方法、设备及可存储介质在审
申请号: | 201910535327.1 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110399477A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 高源伯;李向伟;高爽;柴博;宋博川 | 申请(专利权)人: | 全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张琳琳 |
地址: | 102209 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 单词 目标文档 初始特征向量 上下文特征 特征提取 特征向量 摘要提取 可存储 计算机技术领域 上下文关联 获取目标 综合考虑 文档 预设 申请 | ||
1.一种文献摘要提取方法,其特征在于,所述方法包括:
获取目标文档,将目标文档拆分为至少一个句子,对所述句子中的每个单词进行特征提取,得到单词初始特征向量;
基于所述单词初始特征向量,确定所述句子中的预设单词,以得到所述句子的特征向量;其中,所述句子的特征向量为所有所述预设单词的特征的集合;
基于所述句子的特征向量,确定所述句子的上下文特征;
根据所述句子的上下文特征,确定所述句子是否为所述目标文档摘要中的句子,以得到所述目标文档的摘要。
2.根据权利要求1所述的方法,其特征在于,所述基于所述单词初始特征向量,确定所述句子中的预设单词,以得到所述句子的特征向量,包含:
对所述单词初始特征向量进行处理,得到所述句子中的每个单词的第四特征向量,所述第四特征向量包含归一化后的第三特征向量;
对所述第四特征向量进行处理,以得到所述句子的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述单词初始特征向量进行处理,得到所述句子中的每个单词的第四特征向量,包含:
对所述单词初始特征向量进行处理,得到每个单词的第二特征向量,所述第二特征向量包含归一化后的第一特征向量。
4.根据权利要求3所述的方法,其特征在于,所述对所述单词初始特征向量进行处理,得到每个单词的第二特征向量,包含:
对所述单词初始特征向量进行过滤,得到每个单词的第一特征向量,所述第一特征向量包含单词的语义信息;
对所述第一特征向量进行归一化,得到每个单词的第二特征向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述单词初始特征向量进行处理,得到每个单词的第二特征向量之后,还包含:
对所述第二特征向量进行处理,得到每个单词的第四特征向量。
6.根据权利要求5所述的方法,其特征在于,所述对所述第二特征向量进行处理,得到每个单词的第四特征向量,包括;
对所述第二特征向量进行线性整流,得到每个单词的第三特征向量;
对所述第三特征向量进行归一化,得到每个单词的第四特征向量。
7.根据权利要求6所述的方法,其特征在于,所述对所述第二特征向量进行处理,得到每个单词的第四特征向量之后,还包含:
根据所述第四特征向量,计算每个单词在所述句子中的权重,提取预设单词特征,得到所述句子的特征向量。
8.根据权利要求1所述的方法,其特征在于,基于所述句子的特征向量,确定所述句子的上下文特征,包含:
基于所述句子的特征向量,通过长短期记忆模型进行处理,得到所述句子的上下文特征。
9.根据权利要求8所述的方法,其特征在于,所述基于所述句子的特征向量,通过长短期记忆模型进行处理,得到所述句子的上下文特征,包含:
根据所述句子的特征向量,通过所述长短期记忆模型,得到所述句子的前向长短期记忆特征向量与后向长短期记忆特征向量;
通过所述句子的前向长短期记忆特征向量与后向长短期记忆特征向量的拼接,得到所述句子的上下文特征。
10.根据权利要求1所述的方法,其特征在于,所述根据所述句子的上下文特征,确定所述句子是否为所述目标文档的摘要中的句子,以得到目标文档摘要,包含:
基于所述句子的上下文特征通过分类器,计算所述句子作为摘要的概率;
所述概率高于阈值的类标为1,低于阈值的类标为0;
当所述句子的类标为1,则确定所述句子为所述目标文档摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院,未经全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910535327.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:人才画像的生成方法、装置、设备及存储介质
- 下一篇:事件发现方法和装置