[发明专利]一种用于生成关键词的方法与设备在审
| 申请号: | 202010006961.9 | 申请日: | 2020-01-03 |
| 公开(公告)号: | CN111209468A | 公开(公告)日: | 2020-05-29 |
| 发明(设计)人: | 刁诗哲;宋彦;王咏刚 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
| 主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 北京启坤知识产权代理有限公司 11655 | 代理人: | 高雅 |
| 地址: | 510700 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 生成 关键词 方法 设备 | ||
本申请的目的是提供一种用于生成关键词的方法与设备。生成设备获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。本申请同时解决了OOV的问题和生成未出现词的问题,也解决了传统的RNN的模型梯度消失和梯度爆炸等问题,可以准确地为任何输入文档生成高度相关并且全面的关键词。
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于生成关键词的技术。
背景技术
关键词是对一段文本的关键信息的总结,也是对整个文本重要信息的高度浓缩和概括。关键词对于自然语言处理领域的很多任务都有帮助,比如文本摘要、文本分类、意见挖掘等,因此关键词生成也是自然语言处理领域的基础任务。根据生成的关键词是否在当前输入文本中出现,分为未出现关键词(Absent Keyphrase)和出现关键词(PresentKeyphrase)两种,因此,关键词的生成效率、生成准确性以及覆盖范围的广泛性,则是衡量关键词生成任务的重要参考指标。
发明内容
本申请的目的是提供一种用于生成关键词的方法与设备。
根据本申请的一个实施例,提供了一种用于生成关键词的方法,其中,该方法包括以下步骤:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
根据本申请的另一个实施例,提供了一种用于生成关键词的生成设备,其中,所述生成设备包括:
用于获取输入文本的单词嵌入向量以及整体文本向量的装置;
用于将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量的装置;
用于将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的装置;
用于将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布的装置。
根据本申请的另一个实施例,提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器用于执行以下操作:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010006961.9/2.html,转载请声明来源钻瓜专利网。





