[发明专利]一种基于Seq2seq框架的关键词提取方法有效
申请号: | 201910313279.1 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110119765B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 孟利民;郑申文;蒋维;应颂翔;林梦嫚 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/205;G06F40/289 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 seq2seq 框架 关键词 提取 方法 | ||
一种基于Seq2seq框架的关键词提取方法,利用Seq2seq框架创建序列模型,引入注意力机制,提取文本中关键词的特征,并在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布,然后采用softmax损失函数来训练网络模型,最终在模型预测阶段,利用Beam Search集束搜索算法生成一个最大概率的关键词序列作为关键词结果集,得到合适的关键词。本发明方法很好的考虑到长文本中的深层次语义,结合上下文信息语境,计算词语的分布概率,并更好的解决了低频词和生成式任务重复问题,提高了关键词提取的准确率。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于Seq2seq框架的关键词提取方法。
背景技术
随着移动互联网技术、电子商务、以及社交媒体的迅速发展,使得现阶段的文本数据呈现爆炸式增长,据市场研究调查显示,每两年全球的数据量便翻一番,以这样惊人的速度增长,必然给人们造成信息过载的问题。目前,在这浩瀚的数据宇宙中,其组成大多数是非结构化的文本数据,如何从这些文本数据中抽取有用的信息,解决信息过载问题,已成为当前的一个迫切需求。
关键词抽取作为文本挖掘中一项重要的技术,是信息检索、文本分类以及推荐系统等的基础性和必要性的工作,已成为专家学者们的研究热点。文本关键词浓缩了整篇文档的主旨和要义,是对一篇文本的高度概括。通过从一篇文本中提取具有概括功能的词或短语,可以帮助用户快速检索到用户所需要的信息以及快速的判定文本的需要性,并有效的解决了信息过载的问题。
现阶段提取关键词的方法有很多,采用的主要方法有基于统计TF-IDF的算法、基于图模型的TextRank算法以及基于主题模型的LDA算法。但大多数是利用词频、位置等信息来作为衡量关键词的重要特征,这种方式提取的关键词不能很好的概括文本内容,无法很好的获取句子之间以及关键词之间的深层次语义联系,会造成潜在的有用关键词无法提取出来,从而使抽取的关键词的查准率和查全率都不高。
关键词抽取的词频权重特征、词图共现特征以及文档主题特征都是显式特征,随着深度学习的兴起,特别是Word2vec词向量的提出,使得词嵌入向量能够融入到通过深度学习得到的显式特征中。随着序列到序列框架的提出,利用神经网络模型去学习关键词的特征及其上下文信息,提取文章关键词,从而提高了关键词的查准率和查全率。但这种方式提取的关键词,是基于训练数据生成的词表中的词或短语,如果文本集中的词或短语不在词表中,将会用UNK符号进行标记,对于这些被标记的低频词,无法被解码器正确解码,造成关键词丢失。同时,对于基于循环神经网络模型的生成式任务,由于其自身的局限性,生成的关键词会有重复的现象。而且文本长度越长,重复现象越严重,严重的时候解码器会一直重复上一时间节点的词语。
在当前大数据的背景下,关键词提取作为一项极其重要的基础性工作,得到了大量的研究和实践。但基于神经网络模型抽取关键词的现阶段研究却很少,随着Seq2seq框架的提出,这一方法逐渐成为了研究热点。专利申请号CN201810211285.1提出了一种基于Seq2seq神经网络模型的关键词抽取方法,它在循环神经网络中引入了注意力机制和复制机制,使得该神经网络能够预测出词汇表和源文档以外的关键词,提高了关键词抽取的质量。但对于其生成的关键词的重复现象,没有给出一种解决方法。
发明内容
本发明为克服上述不足之处,提供一种基于Seq2seq框架的关键词提取方法。本发明利用Seq2seq框架创建序列模型,引入注意力机制,提取文本中关键词的特征,并在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布,然后采用softmax损失函数来训练网络模型,最终在模型预测阶段,利用Beam Search集束搜索算法生成一个最大概率的关键词序列作为关键词结果集,得到合适的关键词。本发明方法很好的考虑到司法长文本中的深层次语义,结合上下文信息语境,计算词语的相关度,并更好的解决了低频词和生成式任务重复问题,提高了关键词提取的准确率。
一种基于Seq2seq框架的关键词提取方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910313279.1/2.html,转载请声明来源钻瓜专利网。