[发明专利]生成文本摘要的方法及设备有效
申请号: | 201810061577.1 | 申请日: | 2018-01-23 |
公开(公告)号: | CN108319668B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 章乐;舒畅;何永;李传丰;武拥珍;李竹桥 | 申请(专利权)人: | 义语智能科技(上海)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06N3/04 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 文本 摘要 方法 设备 | ||
1.一种生成文本摘要的方法,其中,该方法包括:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
2.根据权利要求1所述的方法,其中,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子,包括:
将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
3.根据权利要求2所述的方法,其中,将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词,包括:
将所述标准化处理后的文章进行分句;
对每个句子再用jieba分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;
用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;
以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;
在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;
将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;
把其余每个类中的所述排序第一的句子中的关键词提取出来。
4.根据权利要求1所述的方法,其中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,还包括:
利用所述判别器对所述两个编码器和一个解码器进行优化。
5.根据权利要求1所述的方法,其中,对所述文章进行标准化处理,包括:
对所述文章得标点和字符进行标准化;
删除所述文章中的不需要的多余字符;
将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于义语智能科技(上海)有限公司,未经义语智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810061577.1/1.html,转载请声明来源钻瓜专利网。