[发明专利]使用树形神经网络和双向神经网络实现中文分词在审
申请号: | 201610037336.4 | 申请日: | 2016-01-15 |
公开(公告)号: | CN105740226A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 黄积杨;赵志宏;张冲 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 树形 神经网络 双向 实现 中文 分词 | ||
技术领域
本发明属于自然语言处理领域,涉及使用树形神经网络和双向神经网络实现中文分词的方法。
背景技术
常用的传统中文分词技术包括逐词遍历法、基于字典词库匹配的分词方法、全切分和基于词的频度统计的分词方法等,这些方法都是以算法为基础的方式。传统方法中还有两个比较有名的基于模型的分词方法,隐马尔可夫模型,条件随机场模型,这两个模型都是通过已经序列,求出目标序列,其中条件随机场模型效果优于隐马尔可夫模型。随着计算机计算能力的提升和神经网络模型的成熟,这里提出一种使用树形神经网络双向神经网络实现中文分词的方法。
发明内容
本发明的目的在于至少在一定程度上提出一种基于神经网络实现中文分词的方法。说明了如何通过输入的句子生成对应的分词标记序列。
为了实现以上目的,本发明采用的技术方案是:获得输入句子,将句子中的每个字转换成字向量作为第一输入,将第一输入传递给三层长短期记忆神经网络即树形神经网络产生第二输入,从而实现短语、语义信息的提取,将第二输入传递给双向长短期记忆神经网络,并用特殊的方式来初始化隐藏层的初始输入,产生第三输入,从而实现字上下文信息的提取,将第三输入传递给logSoftMax层即多分类层,获得最终的分词标记序列。为了能够获得树形信息,需要对每个网络单独训练,再对整个神经网络进行训练。
在以下附图和说明中描述了本说明书中所述主题的一些实施例的细节。依据说明、附图和权利要求书,使用树形和双向神经网络实现中文分词的方法的其他特征、方面和优点会是显而易见。
附图说明
图1示出了整个神经网络结构
图2示出了部分三层长短期记忆神经网络
图3示出了一个双向-长短期记忆神经网络
具体实施方式
下面将结合本发明中的附图,对整个技术方案即整个神经网络进行清晰,完整的解释。
本发明的内容在于提供一种基于神经网络进行中文分词的技术解决方案,包括四个部分,把句子转换成向量部分,训练三层长短期记忆神经网络即树形神经网络部分,训练双向长短期记忆神经网络部分,训练整个神经网络。
图1示出了从输入句子到最终的句子分词标记序列输出的整个流程。其中输入句子到输入序列是将句子转换成词向量的系统的示例。在其中可以实施下述的系统、组件和技术。
将单词转换成词向量,词向量有两种方式可以获得,1)把词向量作为参数,包含在神经网络当中,训练整个神经网络的同时就可以获得词向量。但通过这种方式而获得的词向量,相似汉字这间的关系并不明显,甚至没有必然的联系。2)利用比较成熟的神经网络预先训练出词向量库,如word2vec,GloVe,这两个神经网络算法训练出来的词向量,相似词或同类词之间存在一定的线性关系或明显的非线性关系,通过一个词的词向量可以找到它相似的词。为了使得词向量更具有语义,本发明采用Glove训练出300维的词向量库。
统计语料中字的个数N,使用oneHot(oneHot表示一个维度为N,只有其中一个位置为1其他为0的向量)表示每个字,通过oneHot找到字对应的向量,最终将句子转换成向量表示。
图2显示了部分三层长短期记忆神经网络,每一层长短期记忆神经网络,由100个标准的LSTM(长短期记忆)节点组成。标准的LSTM主要处理可变长序列,解决长距离依赖问题,它包括三个门:输入门、忘记门、输出门。使用多层长短期记忆神经网络就相当于形成了一个树形神经网络。
为了使用三层长短期记忆神经网络具有树形的功能,训练这层网络的输入是句向量,目标是这个输入句子对应的语法解析树的序列表示,例如:input={″使用树形神经网络和双向神经网络实现中文分词″},target={″(ROOT(IP(VP(VP(VV使用)(NP(NP(NN树形)(NN神经)(NN网络))(CC和)(NP(ADJP(JJ双向))(NP(NN神经)(NN网络)))))(VP(VV实现)(NP(NN中文)(NN分词))))))″},单独训练的时候,需要在这层网络添加一个线性转换层和一个logSoftMax层,使得100个节点的标准的LSTM的输出能与树形的序列表示对应,相当于编码与解码。传统的长短期记忆神经网络的隐藏层的初始化状态为全0或生成很小的随机数,对于这三层长短期记忆神经网络的初始状态,本发明采用sentence2vec(一个将句子转换成句向量的神经网络算法)生成代表输入句子的句向量,句向量通过乘以矩阵参数转换成与隐藏层相同维度的向量,矩阵参数通过训练整个神经网络获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610037336.4/2.html,转载请声明来源钻瓜专利网。