[发明专利]多特征融合的越南语关键词生成方法在审
申请号: | 202110743043.9 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113627170A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 高盛祥;陈瑞清;余正涛;毛存礼;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 融合 越南语 关键词 生成 方法 | ||
本发明涉及多特征融合的越南语关键词生成方法,属于自然语言处理领域。越南语关键词生成是针对越南语新闻文本进行关键词预测,得到高度概括新闻文本信息的关键词;本发明首先在编码过程中融合了词性信息、命名实体信息和位置信息。其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词。该方法在越南语关键词生成中取得了很好的效果,为后续的文本分类,信息检索提供了支撑。
技术领域
本发明涉及多特征融合的越南语关键词生成方法,属于自然语言处理领域。
背景技术
在自然语言处理任务中,关键词通常作为多词单元以简短的文本总结了文档的基本思想,越南语关键词生成对汉越双语文本摘要、跨语言信息检索和东南亚舆情分析等下游任务提供了重要支持。
在英语环境下关键词生成取得了不错的进展,Meng Rui等人提出了采用了编码器-解码器结构,注意力机制和复制机制的CopyRNN网络,并在大规模语料上训练生成模型。带有门控循环单元的双向RNN在从大多数数据集中提取文档已出现的关键词时效果没有非深度学习方法好,但是CopyRNN表现的确很出色。Wang Chen等人提出了TG-Net模型,将标题信息用于指导编码,显著提升了生成关键词与标题的相关度。Yue Wang等人通过引入主题模型使关键词生成模型能够挖掘文档中的潜在主题,提高了关键词与源文本的主题契合度。Hou Pong Chan等人引入了强化学习方法,增加了生成关键词的多样性。但是以上方法依赖大规模附带关键词的语料,对于像越南语等低资源语种,由于语料数量远远达不到英语条件下的训练规模,导致生成的越南语关键词准确率不高。
能够代表文章的关键内容有以下特点:一是与命名实体相关,关键词通常包括人名、地名、机构名、时间、专有名词等具有特定意义的实体;二是与词性相关,名词和动词通常包含了文档关键信息;三是与标题相关,标题中的关键词及相关词汇是文章最核心的内容。
本发明多特征融合的越南语方法主要结合文本中的词性、命名实体、标题信息以及计算词汇位置用于指导关键词生成。
发明内容
本发明提供了多特征融合的越南语关键词生成方法,以用于对越南语文档进行关键词生成,解决了由于越南语等低资源语种语料稀缺,模型提取的特征不够丰富导致关键词生成不准确的问题。
本发明采用的技术方案是:多特征融合的越南语关键词生成方法,首先在编码过程中融合了词性信息、命名实体信息和位置信息;其次利用双向注意力机制增强标题信息在生成过程中的指导作用;最后将融合多种语义信息的特征向量送入解码层,输出最终预测概率分布,进而生成越南语关键词。
进一步地,所述方法的具体步骤如下:
Step1、采用基于Scrapy框架的爬虫从越南语新闻网站Dantri、Vnexpress、VietNamNet上爬取政治、经济、文化、社会、科技等八个领域越南语新闻文档及关键词;
Step2、对越南语新闻文档及关键词过滤筛选,对新闻文档字符长度小于50个及大于300个的文档进行删除;删除新闻文档中关键词个数小于2的文档;对越南语文档进行分词预处理,将所有数字替换为digit;
Step3、采用VnCoreNLP越南语自然语言处理工具包对预处理后的越南语文档语料进行词性标注和命名实体识别,并计算词汇的位置向量来提高生成关键词的质量,计算表达式为:
其中l代表词汇的位置向量,i代表新闻文档中第i个词汇的位置,n代表该新闻文档中总的词汇数目;
Step4、将每个词汇的词性标注和命名实体识别映射为词性向量和命名实体向量,得到的词性向量、命名实体向量、位置向量l与原始词向量拼接,最终构成一个512维的上下文向量对预处理后的越南语文档语料进行标题向量的提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110743043.9/2.html,转载请声明来源钻瓜专利网。