[发明专利]关键词识别方法、装置、设备及介质在审

专利信息
申请号: 202011498911.3 申请日: 2020-12-17
公开(公告)号: CN112528026A 公开(公告)日: 2021-03-19
发明(设计)人: 李浩然 申请(专利权)人: 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126;G06F40/194;G06F40/279;G06F40/30;G06N3/04;G06N3/08
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 王文思
地址: 100176 北京市大兴区北京经济*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关键词 识别 方法 装置 设备 介质
【说明书】:

本公开提供了一种关键词识别方法,包括:对输入文本中的词进行分类,得到每个词的关键词概率,计算所述输入文本中词与词之间的相关性得分,根据所述相关性得分计算所述输入文本中各词的重要性得分,根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分,根据所述关键词得分识别所述输入文本中的关键词。本公开还提供了一种关键词识别装置,一种电子设备及一种可读存储介质。

技术领域

本公开涉及计算机技术领域,更具体地,涉及一种关键词识别方法、装置、设备及介质。

背景技术

文本关键词识别任务是在输入文本中识别出关键词的任务。通常来说,实现该任务的方法有两种。第一种是有监督的方法,根据输入文本中的关键词标签,训练一个序列标注任务。第二种是无监督的方法,比如基于图的方法,将文本中的词作为图的节点,节点之间的边为词与词之间的关系,通过基于图的算法计算每个词的重要性得分,抽取出得分高的词作为关键词。

然而,有监督的方法依赖于标注数据,倾向于挖掘输入文本与输出标签的相关性,而忽视了输入文本之间的相关性,关键词识别的准确性较低。无监督的方法依赖于构图的准确性,即图中每个词之间的相关性计算,一般来说,词之间的相关性可以通过词向量之间的余弦相似度或tf-idf(用于信息检索与数据挖掘的常用加权技术)向量余弦相似度进行表示,但这些基于静态向量的方法对词与词之间的相似度建模不足,无法准确的表征词与词之间的相似度,关键词识别的准确性也较低。

发明内容

有鉴于此,本公开提供了一种关键词识别方法、装置、设备及介质。

本公开的一个方面提供了一种关键词识别方法,包括:对输入文本中的词进行分类,得到每个词的关键词概率;计算所述输入文本中词与词之间的相关性得分;根据所述相关性得分计算所述输入文本中各词的重要性得分;根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分;以及根据所述关键词得分识别所述输入文本中的关键词。

根据本公开的实施例,所述对输入文本中的词进行分类,得到每个词的关键词概率包括:基于Transformer的预训练模型,对所述输入文本进行编码,生成一系列隐层序列,其中,所述隐层序列中的每一元素代表一个词;对所述一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。

根据本公开的实施例,所述计算所述输入文本中词与词之间的相关性得分包括:基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,所述隐层语义向量包括所述输入文本的查询向量及键值对中键对应的向量;根据所述查询向量及所述键对应的向量计算输入文本中词与词之间的相关性得分。

根据本公开的实施例,所述Transformer的预训练模型包括至少一层Transformer层,针对于每一层Transformer层,根据:

计算所述相关性得分,其中,i、j表示所述输入文本中词的编号,n表示Transformer层的层数编号,表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,为比例因子,soft max()表示归一化指数函数;根据:

计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。

根据本公开的实施例,所述根据所述相关性得分计算所述输入文本中各词的重要性得分包括:根据si=∑iDi,j计算所述重要性得分;其中,i、j表示所述输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011498911.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top