[发明专利]融合多粒度特征的汉越新闻事件相关性分析方法在审
| 申请号: | 202310021813.8 | 申请日: | 2023-01-06 |
| 公开(公告)号: | CN115965032A | 公开(公告)日: | 2023-04-14 |
| 发明(设计)人: | 高盛祥;梁晨;余正涛;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/258;G06F40/242;G06F16/951;G06F18/22 |
| 代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
| 地址: | 650500 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 粒度 特征 新闻 事件 相关性 分析 方法 | ||
1.融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述方法的具体步骤如下:
Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;
Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;
Step3、进行汉越跨语言词向量预训练;
Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取及Embedding表示;
Step5、通过三层Stacked-LSTM学习到各种粒度特征,得到最终特征向量;
Step6、通过多头注意力机制计算,将所有注意力值拼接,再进行线性变换得到具有多粒度事件特征的新闻上下文表示;
Step7、采用曼哈顿距离计算实际文档距离,得到双语文档语义相似度。
2.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step3中,首先在各自语言的语料中训练词嵌入矩阵X和Y,将种子词典表示为二进制矩阵D,找到最优映射矩阵W*,使映射的汉语词嵌入矩阵和越南语词嵌入矩阵之间的欧氏距离平方和最小化:
其中表示第i个汉语词嵌入,W是映射矩阵,表示第j个越南语词嵌入,如果第i个汉语词与第j个越南语词对齐,则Dij=1;
然后对词嵌入矩阵X和Y进行归一化和中心化预处理操作:将W构建为正交矩阵以防止单语性能下降且提供更好的双语映射,优化后的公式为:
W*=argWmaxTr(XWRTDT)
其中Tr(·)表示主对角线所有元素之和,W*为最优映射矩阵;
最后使用映射源语言嵌入和目标语言嵌入之间的点积作为相似度度量。
3.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step4中,选择关键短语、关键句和双语主题作为词级、句子级和篇章级粒度特征,分别使用TF-IDF、TextRank、双语LDA对各粒度特征进行提取。
4.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step5中,采用孪生循环神经网络结构来对汉语和越南语新闻进行相似度计算,孪生神经网络由结构相同的两个神经网络构成,该网络能学习区分两个输入是否相似;孪生循环神经网络主体部分由两个Stacked-LSTM组成,它们之间参数共享,输入分别是汉语和越南语词向量及多粒度词向量序列,三层Stacked-LSTM学习词级、句子级、主题级各种粒度特征,得到最终特征向量。
5.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step6中,首先把所有注意力值采用纵向连接的方式进行向量拼接,再通过线性变换得到具有多粒度事件特征的新闻上下文表示;计算公式如下。
H′n=Multi_self_attention(Hn)
其中,Multi_self_attention为映射函数;H′n为第n个词的具有多粒度事件信息的上下文特征表示;多头自注意力机制原理为缩放点积注意力,通过点积计算得到注意力值,计算公式如下:
其中Q,K,V分别为计算自注意力的Query、Key、Value矩阵,dk为键的维数,用于避免Q,K内积过大。
6.根据权利要求1所述的融合多粒度特征的汉越新闻事件相关性分析方法,其特征在于:所述Step7中,由于汉语和越南语新闻文本结构不同,语义差异大,所以使用曼哈顿距离计算实际距离;
具体的,Step6中汉语和越南语文本通过孪生网络结构分别得到H‘zh和H‘vi,在此基础上利用sigmoid函数进行归一化,从而计算双语文本相似度P=Similarity(H‘zh,H‘vi),公式如下:
P=Similarity(H‘zh,H‘vi)=1-Sigmoid(manhattan(H‘zh,H‘vi))其中,当P0.6时,预测汉语和越南语新闻相关,H‘zh是具有多粒度事件信息的汉语文档上下文特征表示;H‘vi是具有多粒度事件信息的越南语文档上下文特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310021813.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动安全扶手
- 下一篇:基于天线感应的静电放电事件侦测仪





