[发明专利]基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统有效

专利信息
申请号: 201710070391.8 申请日: 2017-02-09
公开(公告)号: CN106844346B 公开(公告)日: 2020-08-25
发明(设计)人: 曹杰;冯雨晖;宿晓坤;杨睿;何源浩 申请(专利权)人: 北京红马传媒文化发展有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/284;G06F40/289;G06N20/00
代理公司: 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 代理人: 郭少晶
地址: 100027 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 模型 word2vec 文本 语义 相似性 判别 方法 系统
【说明书】:

发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统,方法包括:将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合;提取所述多维的词向量集合的特征数据,将所述特征数据与标注数据同时输入至SVC模型中进行模型训练,得到短文本语义相似性判别模型。通过本发明提供的技术方案,在社交网络文本分析场景中,将待判别的两个短文本输入到上一步训练的模型中,即可输出语义相似性的判别结果,创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别;从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率。

技术领域

本发明涉及中文自然语言处理技术领域,尤其涉及一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统。

背景技术

自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。它并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。它是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。现有的NLP处理工具有OpenNLP,FudanNLP和哈工大的语言技术平台(LTP);当前中文自然语言处理技术难点在于单词的边界确定、词义消歧,句法模糊性,错误性输入等,尤其社交网络文本,由于其口语化、方言化,且以短文本居多,给NLP带来了新的挑战。

深度学习是近十年来人工智能领域取得的最重要的突破之一,在语音识别、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在自然语言处理领域,虽然深度学习方法也收到越来越多的关注,在很多任务上也取得了一定效果,但是并没有其它领域那么显著。传统的主流自然语言处理方法是基于统计机器学习的方法,所使用的特征大多数是基于onehot向量表示的各种组合特征。这个特征表示方式会导致特征空间非常大,但也带来一个优点,就是在非常高维的特征空间中,很多任务上都是近似线性可分的。因此,在很多任务上,使用线性分类器就是可以取得比较满意的性能。研究者更加关注于如何去提取能有效的特征,也就是“特征工程”。和传统统计机器学习不同,在自然语言处理中使用深度学习模型首先需要将特征表示从离散的onehot向量表示转换为连续的稠密向量表示,也叫分布式表示。分布式表示的一个优点是特征之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。早期研究者采用比较保守的方法,将离散特征的分布式表示作为辅助特征引入传统的算法框架,取得了一定的进展,但提升都不太显著。近两年来,随着对深度学习算法的理解逐渐加深,越来越多的研究者开始从输入到输出全部采用深度学习模型,并进行端到端的训练,在很多任务上取得了比较大的突破。

2012年,杨震等人提出一种短文本间语义距离的计算机辅助计算方法,其方法是将两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算,但是该方法存在两点不足:(1)句法结构距离仅在句法结构规则的情况下表现良好,而且还受到句长的影响;(2)单元语义距离的计算是基于《同义词词林扩展版》中词语的五级结构,同时引入中文关键词与近义词。随着新词的不断涌现和社交网络词语口语化,基于同义词和近义词词典的方法需要投入大量的人工维护成本,且词语的覆盖度有限。综上所述,杨震的发明并不能满足网络短文本的语义相似度计算需求。

发明内容

本发明提供了一种基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统,研究对象为网络短文本,旨在基于深度学习模型解决短文本语义相似性判别问题。达到创新地将深度学习算法应用于解决自然语言处理中的短文本语义相似性判别,从词粒度到文本粒度构建特征工程,详尽地表达了短文本局部及总体特征,提升了短文本语义相似性判别的准确率的目的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京红马传媒文化发展有限公司,未经北京红马传媒文化发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710070391.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top