[发明专利]融合多粒度特征的汉越新闻事件相关性分析方法在审
| 申请号: | 202310021813.8 | 申请日: | 2023-01-06 |
| 公开(公告)号: | CN115965032A | 公开(公告)日: | 2023-04-14 |
| 发明(设计)人: | 高盛祥;梁晨;余正涛;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/258;G06F40/242;G06F16/951;G06F18/22 |
| 代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
| 地址: | 650500 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 粒度 特征 新闻 事件 相关性 分析 方法 | ||
本发明涉及融合多粒度特征的汉越新闻事件相关性分析方法,属于自然语言处理领域。本发明通过融合多粒度特征进行汉越新闻相关性分析,可以从事件粒度衡量相似文本,在事件层次建立双语新闻文本间的语义联系,利用事件特征进行新闻相关性分析。本发明首先,提取出汉越新闻文本中事件关键词、关键句和主题特征;其次,在文本语义的基础上融入以上多粒度事件信息;然后,利用多头自注意力机制提取不同粒度间事件信息的依赖关系;最后计算曼哈顿距离,获取汉越新闻文本中事件的相似关系。本发明在汉越新闻事件相关性分析任务中取得了很好的效果,为跨语言信息检索、跨语言新闻事件分类、舆情监测等任务提供了支撑。
技术领域
本发明涉及一种融合多粒度特征的汉越新闻事件相关性分析方法,属于自然语言处理领域。
背景技术
汉越新闻事件相关性分析旨在找到与中文新闻事件相关的越南语新闻文本。直接对汉越新闻文本通过文本表征进行相似度计算效果不佳。原因在于汉语和越南语不属于同一语系,语言差异性很大,内容和形式上都存在不同语种间的对齐问题,且同一事件在不同国家的关注点和报道角度有所区别。但新闻事件的关键词、关键句以及主题总保持一致,利用事件信息对汉越新闻事件进行相关性分析,能得到更加均衡合理的判断。对之后的面向跨语言新闻事件检索、跨语言新闻事件分类、虚假新闻检测、舆情监测等领域具有重要研究价值。
发明内容
本发明提供融合多粒度特征的汉越新闻事件相关性分析方法,通过提取新闻报道中不同粒度事件信息综合对汉越新闻文档进行相似度评判,从而保证相似度是基于新闻事件而不是新闻整体内容进行度量的,本发明提升汉越新闻事件文本相似度计算模型的性能。
本发明的技术方案是:融合多粒度特征的汉越新闻事件相关性分析方法,所述方法的具体步骤如下:
Step1、爬取各个领域的汉语、越南语新闻文档及其关键词;
Step2、过滤筛选爬取到的汉语、越南语新闻文档及其关键词;
Step3、进行汉越跨语言词向量预训练;
Step4、对汉越新闻文档进行短语级、句子级、主题级的特征提取及Embedding表示;
Step5、通过三层Stacked-LSTM学习到各种粒度特征,得到最终特征向量;
Step6、通过多头注意力机制计算,将所有注意力值拼接,再进行线性变换得到具有多粒度事件特征的新闻上下文表示;
Step7、采用曼哈顿距离计算实际文档距离,得到双语文档语义相似度。
作为本发明的进一步方案,所述Step3中,首先在各自语言的语料中训练词嵌入矩阵X和Y,将种子词典表示为二进制矩阵D,找到最优映射矩阵W*,使映射的汉语词嵌入矩阵和越南语词嵌入矩阵之间的欧氏距离平方和最小化:
其中表示第i个汉语词嵌入,W是映射矩阵,表示第j个越南语词嵌入,如果第i个汉语词与第j个越南语词对齐,则Dij=1;
然后对词嵌入矩阵X和Y进行归一化和中心化预处理操作:将W构建为正交矩阵以防止单语性能下降且提供更好的双语映射,优化后的公式为:
W*=argWmaxTr(XWYTDT)
其中Tr(·)表示主对角线所有元素之和,W*为最优映射矩阵;
最后使用映射源语言嵌入和目标语言嵌入之间的点积作为相似度度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310021813.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动安全扶手
- 下一篇:基于天线感应的静电放电事件侦测仪





