[发明专利]一种话题标签自动生成方法、装置及系统有效
申请号: | 201911395888.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191023B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 李建欣;毛乾任;李熙;黄洪仁;钟盛海;朱洪东 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/205;G06F40/30;G06K9/62 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话题 标签 自动 生成 方法 装置 系统 | ||
1.一种话题标签自动生成方法,其特征在于,所述方法包括:
步骤一:构建训练数据集合与数据预处理;
步骤二:实现基于内容片段的内容选择机制的Transformer encoder特征编码器;
步骤三:Transformer decoder的话题摘要生成器模型;
步骤四:训练数据并根据交叉验证调优,并实现模型封装与装置的接口实现;
所述步骤一中,构建训练数据集合与数据预处理的方法为:
划分微博话题与微博内容,利用Source的文本去生成话题的标签;
对话题语义的句子进行筛选,利用筛选到的句子中去生成话题;
将微博内容划分成片段,分割源文本内容,将所述源文本内容以片段形式呈现;
对所述片段形式的源文本进行语义编码,在每个片段前加[cls]与[eos]标签;
组合每个片段与片段的开始和结束标签,在句子开始增加[senten]标签用于学习所述句子的语义,得到Source数据;
构建训练数据集合,对以话题为Target的数据也进行处理同时灌入模型中进行训练,获得最初的训练语料;
所述步骤二中,实现基于内容片段的内容选择机制的Transformer encoder特征编码器的方法为:
基于内容选择机制的Transformer对微博内容进行编码,获取微博内容向量表示,得到源文本句子特征编码向量:
sourceembedding=Transformer(weibo content)
提取句子[senten]标签和[clsi]标签对应的Embedding:
Tsenten=GetSenten(sourceembedding)
其中,Tsenten表示Transformer编码器输出的表示源文本句子的特征向量,表示Transformer编码器输出的表示每一个内容片段的特征向量集合;
使用内容选择机制的Transformer特征编码,通过计算句子[senten]表示与[clsi]片段表示的重要性,主要利用双线性函数attention机制计算Tsenten和的重要性:
其中,Ri表示特征权重计算输入向量,该向量集成Tsenten与的语义信息,并通过一个权重矩阵来学习两个标签的语义相关性,通过Softmax函数归一化计算得到的即每一个相对于Tsenten的重要性权重;
提取出相似度最高的3个[clsi]标签对应的内容片段文本作为生成器的输入:
其中,T[3]表示选出的三个重要的[clsi]片段的所有token向量;
所述步骤三中,所述Transformerdecoder的话题摘要生成器模型的实现方法为:对话题文本使用Transformer进行编码
targetembedding=Transformer(weibo topic)
将步骤二中得到的选择片段的特征编码和话题的编码输入到Transformer摘要生成器中生成摘要
y=Decoder(targetembedding,T[1-l])
所述步骤四中
训练数据并根据交叉验证调优,并实现模型封装与装置的接口实现。
2.一种话题标签自动生成装置,其特征在于:包括:
信息输入模块,进行源文本内容的预处理,用于输入源文本;
话题标签自动生成模块,应用如权利要求1所述的话题标签自动生成方法,对输入源文本进行摘要生成;
信息输出模块,将自动生成的摘要通过接口程序输出。
3.一种话题标签自动生成系统,其特征在于:
包括至少一台服务器,以及与服务器连接的如权利要求2所述的话题标签自动生成装置,所述服务器执行生成摘要过程时,
通过所述基于内容片段的内容选择机制的话题标签自动生成装置,从数据输入模块得到源文本,并执行上述方法得到最终的与源文本输出的话题摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395888.2/1.html,转载请声明来源钻瓜专利网。