[发明专利]关键词生成方法、装置、电子设备及计算机存储介质在审
| 申请号: | 202011519819.0 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112667800A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 蒋宏达;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/216;G06F40/284;G06F40/30;G06K9/62;G06N3/08 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关键词 生成 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种关键词生成方法,其特征在于,所述方法包括:
获取文本数据,使用预设的标识符对所述文本数据进行标识,得到训练数据集;
基于正交规范化损失函数和噪声对比评估损失函数,使用所述训练数据集对预构建的原始关键词生成模型进行训练,得到关键词生成模型;
接收待处理文本,利用所述关键词生成模型中的编码器提取所述待处理文本的语义信息,并采用注意力机制对所述语义信息进行处理生成语义向量;
利用所述关键词生成模型的解码器,基于预设的惩罚因子,采用集束搜索方式对所述语义向量进行关键词提取,并输出提取的关键词。
2.如权利要求1所述的关键词生成方法,其特征在于,所述利用所述关键词生成模型中的编码器提取所述待处理文本的语义信息,并采用注意力机制生成语义向量,包括:
通过所述关键词生成模型中的编码器提取所述待处理文本中每个词汇的第一语义特征以及相邻词汇的第二语义特征;
计算所述第一语义特征与所述第二语义特征之间的相似度;
在所述相似度大于预设相似阈值时将所述第一语义特征和所述第二语义特征进行融合并转化为向量,得到所述待处理文本的语义向量。
3.如权利要求2所述的关键词生成方法,其特征在于,所述利用所述关键词生成模型的解码器,基于预设的惩罚因子,采用集束搜索方式对所述语义向量进行关键词提取,并输出提取的关键词,包括:
通过所述关键词生成模型中的解码器将所述语义向量转化为多个词向量;
基于预设的惩罚因子,通过所述关键词生成模型的全连接层和激活函数计算所述多个词向量的概率值;
按照所述概率值大小从大到小对所述多个词向量进行排序,并选取前k个词向量作为第一词向量集;
基于所述第一词向量集利用所述解码器对所述多个词向量重新进行概率计算,并选取概率值排在前面的k个词向量作为第二词向量集,将第一词向量集与第二词向量集中的每个词向量进行两两组合得到第三词向量集;
通过所述激活函数计算第三词向量集中每个词向量的概率,在所述第三词向量集中按照概率值从大到小的顺序选取与所述第一词向量集中词向量个数相同的词向量作为待更新的第一词向量集;
利用所述待更新的第一词向量集更新第三词向量集,直到更新后的第三词向量集中的词向量为所述待处理文本中的预设结束标识符对应的词向量,以及将更新后的第三词向量集中的词作为所述关键词。
4.如权利要求3所述的关键词生成方法,其特征在于,所述基于预设的惩罚因子,通过所述关键词生成模型的全连接层和激活函数计算所述多个词向量的输出概率值,包括:
通过所述关键词生成模型的全连接层和激活函数计算所述多个词向量中每个词向量的输出概率值;
检测所述多个词向量中是否包含重复词;
当所述多个词向量中包含重复词时,将所述重复词的输出概率值乘以预设的惩罚系数因子,作为所述重复词的输出概率值,并汇总所有输出概率值,得到多个词向量的输出概率值。
5.如权利要求3所述的关键词生成方法,其特征在于,所述通过所述关键词生成模型中的解码器将所述语义向量转化为多个词向量,包括:
通过所述解码器的多层网络对所述语义向量进行线性变换得到变换向量;
在预设的词典中选择与所述变换向量距离小于预设距离阈值的向量,得到多个词向量。
6.如权利要求1至5中任意一项所述的关键词生成方法,其特征在于,所述基于正交规范化损失函数和噪声对比评估损失函数,使用所述训练数据集对预构建的原始关键词生成模型进行训练,得到关键词生成模型,包括:
将所述训练数据集输入至所述原始关键词模型生成训练结果集;
利用正交规范化损失函数和噪声对比评估损失函数计算所述训练结果集的综合损失值;
根据所述综合损失值使用反向传播算法调整所述原始关键词模型的参数,并判断预设的终止条件是否满足;
在所述终止条件不满足时,返回上述将所述训练数据集输入至所述原始关键词模型生成训练结果集步骤;
在所述终止条件满足时,执行停止训练,得到关键词生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519819.0/1.html,转载请声明来源钻瓜专利网。





