[发明专利]一种基于语义嵌入的词向量改进模型的建立方法有效
申请号: | 201910395662.6 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110532395B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 张雷;唐思雨;潘元元;路千惠;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/242;G06F40/30;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 嵌入 向量 改进 模型 建立 方法 | ||
本发明公开了一种基于语义嵌入的词向量改进模型的建立方法,包含如下步骤:1)双向长短期记忆网络训练阶段;2)上下文向量计算阶段:将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中,求得上下文向量;3)上下文向量语义聚类阶段:a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度;b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P;c最大化P值并求出该值对应的类簇;c对当前上下文向量归属的类簇中心进行偏移;4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。
技术领域
本发明涉及一种改进的词向量模型的建立方法,该方法建立的模型解决了当前使用的词向量模型无法表示出多义词的多个语义问题。
背景技术
当下,互联网已经成为人们获取信息和发布信息的重要方式。网络平台上的信息往往蕴含着巨大的价值,怎样中海量的文本信息中提取出有价值的内容是计算机学科关注的重点问题之一。深度学习技术的发展提高了计算机对数据的处理能力也促进了自然语言学习领域的发展。而使用深度学习进行自然语言处理时,一个不可或缺的过程就是词的向量化表示。在单词表示上,应用最广泛的是word2vec词向量模型。该模型有Skip-Gram和CBOW两种结构,通过神经网络对单词和上下文之间的联系进行建模,每个单词唯一对应于词向量空间中的一个向量。
目前使用较广泛的词向量模型都是使用词语和向量一一对应的方式,及假设词语只有一个固定的语义。但是在自然语言中,多义词的比重达到42%。人在阅读时对于多义词语义的判断依赖于自身的知识储备和推理能力,但是对于机器来说,很难分辨多义词在具体语境下代表的含义。
词向量在表示多义词方面表示不足限制影响了其在一些NLP应用中的准确度。在语境中,词的语义表达会受到上下文、语法结构、词序等因素影响。为了克服这个问题,语义向量发展而来。按照词的多义性,词向量空间中的单词可以对应到多个语义空间向量中。
发明内容
发明目的:考虑到传统词向量表示方法对于多义词表示的欠缺,本发明提供一种基于语义嵌入的词向量改进模型的建立方法,本发明结合双向长短期神经网络、神经张量网络、贝叶斯非参数构造的过程,构建了一个完整的多义词语义归纳、语义表示和语义消歧模型。首先通过大规模语料库训练双向长短期神经网络参数,然后将目标单词的所有上下文送入神经网络求出对应的上下文词向量,并根据上下文向量之间的余弦相似度构造贝叶斯非参数聚类,聚类的类簇代表单词不同的语义,对每个类簇使用单隐层神经网络训练对应的语义向量。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于语义嵌入的词向量改进模型的建立方法,包括如下步骤:
步骤1,双向长短期记忆网络训练阶段:获取维基百科数据集,抽取数据集中网页的文本内容作为训练使用的语料库;删除语料库中长度小于10个单词或者大于60个单词的语句;对抽取出来的语句统计各个单词,建立统计词表;使用自然语言处理包NLTK删除句子中停用词;根据统计词表删除出现较少的罕见词,将预处理好的句子和目标单词送入神经网络模型biLSTM中进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910395662.6/2.html,转载请声明来源钻瓜专利网。