[发明专利]生成文本摘要的方法及设备有效
申请号: | 201810061577.1 | 申请日: | 2018-01-23 |
公开(公告)号: | CN108319668B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 章乐;舒畅;何永;李传丰;武拥珍;李竹桥 | 申请(专利权)人: | 义语智能科技(上海)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06N3/04 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 文本 摘要 方法 设备 | ||
本发明的目的是提供一种生成文本摘要的方法及设备,本发明通过导入一段文章和标题,从文章中抽取与所述标题最相似的一个代表性句子和关键词,另外加上文章标题通过深度学习生成式模型,从而自动生成高质量的文本摘要。
技术领域
本发明涉及计算机领域,尤其涉及一种生成文本摘要的方法及设备。
背景技术
现有的方案只能根据文章的内容得到简单的摘要,对整篇文章概括不够充分,读者无法根据该摘要的内容准确了解文章的主要内容。
发明内容
本发明的一个目的是提供一种生成文本摘要的方法,能够解决现有方案的生成的摘要对整篇文章概括不充分,读者无法根据摘要的内容准确了解文章的主要内容的问题。采用此方法生成的摘要能够充当副标题的作用
根据本发明的一个方面,提供了一种生成文本摘要的方法,该方法包括:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述方法中,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子,包括:
将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
进一步的,上述方法中,将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词,包括:
将所述标准化处理后的文章进行分句;
对每个句子再用jieba等分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;
用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;
以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;
在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;
将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;
把其余每个类中的所述排序第一的句子中的关键词提取出来。
进一步的,上述方法中,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述方法中,将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于义语智能科技(上海)有限公司,未经义语智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810061577.1/2.html,转载请声明来源钻瓜专利网。