[发明专利]多特征融合的越南语关键词生成方法在审
申请号: | 202110743043.9 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113627170A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 高盛祥;陈瑞清;余正涛;毛存礼;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 融合 越南语 关键词 生成 方法 | ||
1.多特征融合的越南语关键词生成方法,其特征在于:首先在编码过程中融合了词性信息、命名实体信息和位置信息;其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词。
2.根据权利要求1所述的多特征融合的越南语关键词生成方法,其特征在于:所述方法的具体步骤如下:
Step1、爬取越南语新闻文档及关键词;
Step2、对越南语新闻文档及关键词过滤筛选,对新闻文档字符长度小于50个及大于300个的文档进行删除;删除新闻文档中关键词个数小于2的文档;对越南语文档进行分词预处理,将所有数字替换为digit;
Step3、采用VnCoreNLP越南语自然语言处理工具包对预处理后的越南语文档语料进行词性标注和命名实体识别,并计算词汇的位置向量来提高生成关键词的质量,计算表达式为:
其中l代表词汇的位置向量,i代表新闻文档中第i个词汇的位置,n代表该新闻文档中总的词汇数目;
Step4、将每个词汇的词性标注和命名实体识别映射为词性向量和命名实体向量,得到的词性向量、命名实体向量、位置向量l与原始词向量拼接,最终构成一个512维的上下文向量对预处理后的越南语文档语料进行标题向量的提取;
Step5、双向GRU作为编码器,输入的是带有词性向量、命名实体向量、位置向量l、原始词向量的上下文向量X=(x1,...,xi)和标题向量T=(t1,...,tj);得到上下文和标题的向量表征;
前向GRU从左到右读取输入序列,分别生成上下文隐藏状态序列和标题隐藏状态序列后向GRU反向读取输入序列,分别生成上下文隐藏状态序列和标题隐藏状态序列每个时间步骤中连接前向和后向的GRU隐藏状态,上下文和标题通过双向GRU最终输出隐藏状态分别为H=(h1,h2,...,hi)和Q=(q1,q2,...,qj);
Step6、双向注意力层的输入分别是上下文和标题的向量表征hi和qj;在这一层中,通过从上下文到标题以及从标题到上下文两个方向计算注意力;
首先计算相似度矩阵Sij,计算表达式为:
Sij=α(hi,qj)
其中Sij表示第i个上下文词和第j个标题词的相似度;α是一个可训练的标量函数,对其两个输入向量相似性进行编码;hi是H的第i个列向量,qj是Q的第j个列向量;选择其中W(s)是可训练参数;
Step7、从上下文到标题的注意力:上下文到标题的注意力表示哪一个标题词与上下文词最相关;ai代表第i个上下文词到标题词注意力,其中∑aij=1;aij代表第i个上下文词到第j个标题词的注意力,注意力值的计算表达式为:
ui=softmax(Si:)
从标题到上下文的注意力:标题到上下文的注意力表示哪一个上下文词与标题词最相关;bi代表标题词第i个上下文词的注意力,其中∑bij=1;bij代表第j个标题词到第i个上下文词的注意力,注意力值的计算表达式为:
vi=softmax(S:j)
将上下文向量和注意力向量组合在一起产生G=[g1,g2,…,gi],G的表达式为:
Step8、合并层对上下文向量hi和聚合相关标题信息的向量gi进行编码,最后得到融合标题信息的上下文表示,计算表达式为:
其中λ∈(0,1)是超参数;为融合标题信息的上下文表示;
Step9、解码层使用了一个基于注意力的单向GRU进行解码,计算表达式为:
其中t=1,2,…,Ly,Ly是预测关键词的长度,et-1是第t-1个预测关键词的词嵌入,e0是起始符的词嵌入;
Step10、计算第t个预测关键词在预定义词汇表V上的预测概率分布:
其中yt-1=[y1,…,yt-1]是先前的预测单词序列,wv,bv∈R|v|是可训练的参数向量;
Step11、为了结合复制机制,首先在预测的每一步,通过动态计算一个生成概率gt:
其中wg和bg是可训练的参数;
接下来,gt用于确定是否将源文档中的单词复制为第t个目标关键词;gt对词汇分布和注意力分布进行加权平均,最终得到了动态词汇表上的最终预测概率分布ν∪χ,其中x是在源上下文中出现的所有单词;使用Pv(yt)和Pfinal(yt)来分别表示Pv(yt|yi-1,X,t)和Pfinal(yi|yi-1,X,t):
其中是ht和之间的归一化注意力得分;对于所有词表外的单词,Pv(yt)设置为0;如果yt没有出现在上下文里,复制概率则为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110743043.9/1.html,转载请声明来源钻瓜专利网。