[发明专利]一种基于内部语义层次结构的词嵌入表示方法有效
申请号: | 201710256916.7 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107025219B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 苏劲松;杨静;阮志伟;张祥文 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内部 语义 层次 结构 嵌入 表示 方法 | ||
一种基于内部语义层次结构的词嵌入表示方法,涉及基于深度学习的自然语言处理。使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。
技术领域
本发明涉及基于深度学习的自然语言处理,尤其是涉及一种基于内部语义层次结构的词嵌入表示方法。
背景技术
自然语言处理作为计算机科学和语言学的交叉分支,是眼下十分热门的学科。它主要探讨处理和运用自然语言使其能与计算机系统进行有效通信的各种理论和方法。近年来,基于深度学习的自然语言处理研究已经成为该学科发展的主要趋势。
词嵌入表示是指利用分布式向量来表示词的语义信息。通过将自然语言中的词汇映射成低维、稠密的向量,使词处于同一个向量空间中,由此引入“距离”的概念对词汇间的语义相似性进行衡量,有助于获得语义信息更为充分表达的向量表示。目前各种基于深度学习的自然语言处理多以词嵌入表示为基础。
传统的词嵌入表示学习方法主要分为两大类:一类方法以词为基本单位,将词嵌入表示向量作为面向其它任务的神经网络的副产物,例如:Word2vec[1][2][3],语言模型[4]等等。这类方法的不足在于有限的词表使得神经网络模型无法很好地处理未登陆词;一类方法将字符为基本单位,将词包含的字符序列化,然后使用神经网络来学习词的双向嵌入表示向量。这类方法通过字符来构建词,解决了未登陆词的处理问题。其在英语等形态学信息较为丰富的语言上取得了很好的效果,然而并不完全适用于中文等语言。近年来,针对中文词汇嵌入表示的学习,许多研究者根据中文的特点提出了一系列方法。例如:利用中文偏旁部首[5][6][7],利用中文拼音[8]等等。然而,这些方法都忽视了由字符构成中文词汇内部蕴涵的以字符为基本单元的丰富语义信息。因此,当前对词嵌入表示学习的方法仍存在不足,如何获得更好的词嵌入表示仍十分具有研究价值。
参考文献:
[1]Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.2013.EfficientEstimation of Word Representations in Vector Space.In Proceedings of the2013Conference on International Conference on Learning Representations.
[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,JeffreyDean.2013.Distributed Representations of Words and Phrases and theirCompositionality.In Proceedings of the 2013Conference on Neural InformationProcessing Systems.
[3]Mikolov,Tomas and Yih,Wen-tau and Zweig,Geoffrey.2013.LinguisticRegularities in Continuous Space Word Representations.In Proceedings of the2013Conference on the North American Chapter of the Association forComputational Linguistics:Human Language Technologies.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710256916.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本去重方法和装置
- 下一篇:一种互联网用户数据处理方法、装置及系统