[发明专利]一种基于关键词的中英双语平行语料库构建方法有效
| 申请号: | 201410618941.1 | 申请日: | 2014-11-07 |
| 公开(公告)号: | CN104408078B | 公开(公告)日: | 2019-02-12 |
| 发明(设计)人: | 程维 | 申请(专利权)人: | 北京第二外国语学院 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F17/27;G06F17/28 |
| 代理公司: | 北京知本村知识产权代理事务所 11039 | 代理人: | 周自清 |
| 地址: | 100020 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 关键词 双语 平行 语料库 构建 方法 | ||
本发明公开了一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:1)建设双语平行语料库;2)自动对齐;3)抽取关键词;4)建成基于关键词的双语平行语料库。本发明从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高2.52%。
技术领域
本发明涉及一种语料库的构建方法,尤其涉及一种基于关键词的中英双语平行语料库构建方法。
背景技术
语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,科研和企业单位可开展相关的语言理论及应用研究。双语平行语料库是两种语言的篇章、段落和句子级别的对齐文本。
可以说,语料库是自然语言处理多项领域技术的基础。按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)语料库。按照语料的采集单位,语料库又可以分为篇章的、句子的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库(Parallel Corpora)和比较语料库(Comparable Corpora),前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
再具体的讲,不同的语料库可以用于不同的应用领域。如面向机器翻译的语料库训练集、面向文本分类研究的中英文新闻、法律分类语料、以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。而不论是何种目的,现今已经达成共识,语料库应该是能反映出现实世界的大规模真实电子文本。
大规模“语料库”已经成为大数据时代的“宠儿”。如今我们可以从这些大规模的真实的文本中提取中各种有用的信息。总体来讲,语料库是当前各种自然语言处理(比如,机器翻译、拼音汉字转换、语音识别、文本分类和聚类、人机问答系统等)的基础性工作,很多工作没有它,当前主流的统计方法,也就毫无根基可言了。经过不同深度加工的(纯文本、分词文本、标注文本、语义文本、篇章对齐文本、句子对齐文本等)真实文本的语料库,是研究自然语言统计性质的基础。没有它们,
从文本的对齐级别来区分构建的语料库的话,可以分为短语对齐(phrasealignment)文本、句子对齐(sentence alignment)文本、篇章对齐(document alignment)文本。其中句子级别的对齐对当前自然语言处理很多领域有着不可替代的作用。在语料库构建中,为了服务当前和今后相当长的一段时间的应用,我们充分考虑以下四类语料文本的建设:
信息丰富的词典语料库:词典作为基础性资源含有丰富的信息(比如人名、地名以及词的搭配信息等),这些丰富的信息资源,对自然语言处理的很多工作是非常重要的,比如作为自动词对齐的参考、双语训练的文本、术语库的补充等等。
篇章对齐语料库的研制:篇章对齐是两种或者两种以上的基于段落或者篇章对齐的翻译文本。篇章对齐的语料库可以为机器翻译和语音识别、信息检索等领域采用。篇章对齐包含了丰富的上下文信息:词语间的指代关系、语境信息等。
句子对齐语料库的研制:句子对齐的文本通常是由双语或多语的对应翻译文本构成,在机器翻译和跨语言的信息检索(cross-language information retrieval)中占据极其重要的作用,目前包括词典的自动编撰、术语的自动抽取等
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京第二外国语学院,未经北京第二外国语学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410618941.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:能够检测多项指标的人体健康检测仪
- 下一篇:一种肌电针表面处理工艺





