[发明专利]一种利用跨语言信息的序列标注方法有效
| 申请号: | 202010082779.1 | 申请日: | 2020-02-07 |
| 公开(公告)号: | CN111274829B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 陈欢欢;孙凌浩 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/295;G06F40/169;G06F16/35 |
| 代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 语言 信息 序列 标注 方法 | ||
本发明公开了一种利用跨语言信息的序列标注方法,通过翻译模型作为纽带将目标语言(高资源语言)下序列标注模型提取的特征迁移到源语言(低资源语言)下序列标注模型中,同时采用反向注意力的机制,通过翻译模型自动学得的注意力参数用来将不同语言间的单词对齐,并通过该机制迁移在目标语言下抽取出来的语言特征。该方法采用端到端模式,模型输入为自然语言句子,输出为标记结果,使用该发明无需进行其他额外处理,方便实际研究与使用,在当前的主流数据集上取得了很好的标注效果。
技术领域
本发明涉及序列标注技术领域,尤其涉及一种利用跨语言信息的序列标注方法。
背景技术
随着互联网技术的快速发展,网络信息开始呈现爆炸性的发展态势。其中以自然语言为载体的各种信息占据着主要成分。在这个背景下,如何利用机器对这些海量文本信息进行分析理解成了亟待解决的问题。其中,使用计算机理解词语的词性,识别句子中的实体等问题显得尤为关键,因为将会对舆情分析、问答系统等更深层次的其他相关研究提供重要帮助。这些问题可以归纳为一个问题,也就是序列标注问题。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。只要在做序列标注时给定特定的标签集合,就可以进行序列标注。让机器理解自然语言,标注数据必不可少。过少的标注数据导致模型训练不充分,标注结果不能保证。
由于语言的多样性和复杂性,以及许多自然语言的使用人群有限,对每种语言进行大量的标注显然耗费人力资源的。利用标注数据较多的语言(如英语)来提升标注数据较少的语言(如汉语、西班牙语)的序列标注结果,对于更好的理解不同语言间的差异以及如何突破数据不足限制具有重要意义。定义标注数据多的语言为高资源语言(如英语),标注数据不足的语言为低资源语言(如汉语、西班牙语)。
跨语言的序列标注方法,目前主要的方法有以下几种:
1、基于标注投影的算法:大部分的标注投影算法依赖于平行语料和不同语言间句子内对应单词的位置信息。该方法通过将高资源语料下的标注信息通过语言间的词语的对应关系投影到低资源语料中,用来增加低资源语料标注结果的准确性。这种方法需要精确的平行标注语料。如果两种语言间对应词语之间的关系错误,那么在高资源语料中抽取的特征将会投影到错误的低资源语料的词语上。所以高度依赖平行语料间对应关系的准确度以及需要对平行语料进行标注都是该类型方法在实际应用中的困难。
2、基于共享表示的算法:共享表示算法主要依靠不同语言间的相同特点作为纽带进行语言间的信息迁移。该类方法使用去词汇化特征,也就是与特定语言无关的特征。通过使用部分共同特征的方式间接扩充低资源语料。这种方法的优势是对于平行语料的依赖度较低,适应能力强。但是需要人为的定义不同语言间的通用特征,这对于专业研究人员提出了很高的要求。如果使用这种方法的人员不具备运用多种语言的能力,那么也无法找到多种语言间的共同特征。
综合来看,不管是基于标注投影的算法还是基于共享表示的算法,使用的框架都是LSTM-CRF模型或其变种,只是在获取信息的时候采用了不同的方式将高资源语料特征与低资源语料特征结合。所以目前的序列标注架构基本已经确定,研究偏向如何更好地保留以及转换来自高资源模型抽取的信息。之前的方法,一方面需要平行标注数据,这本身就需要很大成本,在许多情况下,由于标注数据不足会导致模型效果过差;另一方面需要熟悉多种语言的专业人员寻找不同语言间的通用特征,这也十分困难。
发明内容
本发明的目的是提供一种利用跨语言信息的序列标注方法,不需要平行标注数据,也不需要使用方法人员具备一定的多语言知识,即可实现序列标注。
本发明的目的是通过以下技术方案实现的:
一种利用跨语言信息的序列标注方法,包括:
通过翻译模型将源语言句子S翻译为目标语言句子S',并记录翻译过程中的注意力权重矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010082779.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





