[发明专利]一种双通道联合处理方法和装置在审
| 申请号: | 202010048414.7 | 申请日: | 2020-01-16 |
| 公开(公告)号: | CN111274788A | 公开(公告)日: | 2020-06-12 |
| 发明(设计)人: | 宋彦;田元贺;王咏刚 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/117;G06F40/289;G06K9/62 |
| 代理公司: | 北京启坤知识产权代理有限公司 11655 | 代理人: | 李琛 |
| 地址: | 510700 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 双通道 联合 处理 方法 装置 | ||
本申请实施例的目的是提供一种用于分词和词性标注系统的双通道联合处理方法和装置。本申请实施的方法包括以下步骤:获取输入序列中包含的每个字对应的上下文特征信息和知识信息;在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于分词和词性标注系统的双通道联合处理方法和装置。
背景技术
中文分词和词性标注的联合任务(Joint Chinese Word Segmentation andPart-of-speech Tagging),指把分词和词性标注视为一个联合任务,即对输入的中文字序列,同时进行分词和词性标注,而不是先分词,再对分词的结果进行词性标注。
现有技术的方案中,面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。
基于特征的方法指,通过人工设计、选取特征的方法,对输入文本进行特征提取,基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。此外,特征提取的方法,对于因句意不同而造成的歧义,并没有相应的解决办法。
近年来,深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。一般来讲,基于深度学习的联合任务的系统均以基本的序列标注模式为基础,具体包括以下三个模块输入嵌入层、上下文信息编码层和解码输出层。
其中,输入嵌入层把输入的文本中的每个字映射到高维连续空间的字向量,并用这个新的字向量代表这个字的特征。上下文信息编码层在字向量的基础之上,提取每个字的上下文的信息,计算其它字的字向量对其的影响。该层的输入为嵌入层的输出(即一句话中的不同字的字向量),输出为经过上下文编码的不同字向量。解码输出层对经过上下文信息提取后的每一个字向量解码,输出预测的联合标签。
然而,基于现有技术的方案一般直接将上下文特征向量和知识向量与字向量直接串联,而没有考虑不同的上下文特征和知识对该字的联合标签的贡献的差异,使得那些贡献小的或者自动方法获取的不准确的上下文特征以及知识,误导模型去预测错误的联合标签。例如,对于语句子“他马上功夫很好”,使用现有的Stanford CoreNLP Toolkits(斯坦福自然语言处理工具)分析后,得到的上下文特征错误地把“马上”(“立即”、“立刻”的意思)视为一个词,而且其携带的词性知识也被错误的视为“副词”,而不是正确地把其视为两个词“马/上”(“马的上面”的意思)。这样一来,这种不准确的上下文特征和知识将会对联合任务系统产生负面的影响。
发明内容
本申请实施例的目的是提供一种用于分词和词性标注系统的双通道联合处理方法和装置。
本申请实施例提供的一种用于分词和词性标注系统的双通道联合处理方法,其中,所述方法包括以下步骤:
获取输入序列中包含的每个字对应的上下文特征信息和知识信息;
在特征通道和知识通道内,分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算,得到输入序列的上下文特征向量和知识向量;
通过将所述上下文特征向量和所述知识向量串联,得到所述输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010048414.7/2.html,转载请声明来源钻瓜专利网。





