[发明专利]一种话题标签自动生成方法、装置及系统有效

专利信息
申请号: 201911395888.2 申请日: 2019-12-30
公开(公告)号: CN111191023B 公开(公告)日: 2022-07-26
发明(设计)人: 李建欣;毛乾任;李熙;黄洪仁;钟盛海;朱洪东 申请(专利权)人: 北京航空航天大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/205;G06F40/30;G06K9/62
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 话题 标签 自动 生成 方法 装置 系统
【权利要求书】:

1.一种话题标签自动生成方法,其特征在于,所述方法包括:

步骤一:构建训练数据集合与数据预处理;

步骤二:实现基于内容片段的内容选择机制的Transformer encoder特征编码器;

步骤三:Transformer decoder的话题摘要生成器模型;

步骤四:训练数据并根据交叉验证调优,并实现模型封装与装置的接口实现;

所述步骤一中,构建训练数据集合与数据预处理的方法为:

划分微博话题与微博内容,利用Source的文本去生成话题的标签;

对话题语义的句子进行筛选,利用筛选到的句子中去生成话题;

将微博内容划分成片段,分割源文本内容,将所述源文本内容以片段形式呈现;

对所述片段形式的源文本进行语义编码,在每个片段前加[cls]与[eos]标签;

组合每个片段与片段的开始和结束标签,在句子开始增加[senten]标签用于学习所述句子的语义,得到Source数据;

构建训练数据集合,对以话题为Target的数据也进行处理同时灌入模型中进行训练,获得最初的训练语料;

所述步骤二中,实现基于内容片段的内容选择机制的Transformer encoder特征编码器的方法为:

基于内容选择机制的Transformer对微博内容进行编码,获取微博内容向量表示,得到源文本句子特征编码向量:

sourceembedding=Transformer(weibo content)

提取句子[senten]标签和[clsi]标签对应的Embedding:

Tsenten=GetSenten(sourceembedding)

其中,Tsenten表示Transformer编码器输出的表示源文本句子的特征向量,表示Transformer编码器输出的表示每一个内容片段的特征向量集合;

使用内容选择机制的Transformer特征编码,通过计算句子[senten]表示与[clsi]片段表示的重要性,主要利用双线性函数attention机制计算Tsenten和的重要性:

其中,Ri表示特征权重计算输入向量,该向量集成Tsenten与的语义信息,并通过一个权重矩阵来学习两个标签的语义相关性,通过Softmax函数归一化计算得到的即每一个相对于Tsenten的重要性权重;

提取出相似度最高的3个[clsi]标签对应的内容片段文本作为生成器的输入:

其中,T[3]表示选出的三个重要的[clsi]片段的所有token向量;

所述步骤三中,所述Transformerdecoder的话题摘要生成器模型的实现方法为:对话题文本使用Transformer进行编码

targetembedding=Transformer(weibo topic)

将步骤二中得到的选择片段的特征编码和话题的编码输入到Transformer摘要生成器中生成摘要

y=Decoder(targetembedding,T[1-l])

所述步骤四中

训练数据并根据交叉验证调优,并实现模型封装与装置的接口实现。

2.一种话题标签自动生成装置,其特征在于:包括:

信息输入模块,进行源文本内容的预处理,用于输入源文本;

话题标签自动生成模块,应用如权利要求1所述的话题标签自动生成方法,对输入源文本进行摘要生成;

信息输出模块,将自动生成的摘要通过接口程序输出。

3.一种话题标签自动生成系统,其特征在于:

包括至少一台服务器,以及与服务器连接的如权利要求2所述的话题标签自动生成装置,所述服务器执行生成摘要过程时,

通过所述基于内容片段的内容选择机制的话题标签自动生成装置,从数据输入模块得到源文本,并执行上述方法得到最终的与源文本输出的话题摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911395888.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top