[发明专利]计算机辅助语料提取方法有效
申请号: | 201110234409.6 | 申请日: | 2011-08-16 |
公开(公告)号: | CN102270242A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 宫辰;管新潮;杨杰 | 申请(专利权)人: | 上海交通大学出版社有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200030 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机辅助 语料 提取 方法 | ||
技术领域
本发明涉及一种计算机辅助语料提取方法,具体是利用计算机作为辅助,使得语言学研究者能够更加方便、快捷地实现语料(本文指术语和句式)的提取和入库,属于计算机科学和语料库语言学的交叉领域。
背景技术
翻译(中译英、英译中)一直以来都是语言学研究中一个十分重要的方面。为了让语言学研究人员能够更加方便、准确、高效地进行翻译,近些年来语料库的构建逐渐成为一种新的技术手段,并得到越来越多的关注和研究。语料库的目的就是将大量典型的外文术语、句式及其翻译预先存入一个数据库中,再以此为依据对新的语篇进行翻译。这些典型的术语、句式一般来自于大家公认的经典翻译著作。因此,这里涉及到一项很重要的工作,就是需要从这些原始的经典翻译著作中提取出大量的语料,并录入数据库。由于这个数据库规模庞大,因此语料提取工作费时费力,工作量浩大。目前,构建语料库的工作基本上还是依靠人工从原文中进行简单的“复制”“粘贴”来完成,这样做不但效率低而且很容易出错。
为了克服这个问题,国际上一些著名的语料处理软件,如Trados,尝试完全依靠计算机来实现语料的全自动提取。这样做固然把人从繁重的劳动中解放出来,但是却有一个很大的弊端:目前计算机的长处在于运算能力强大,但是智能性却有很大不足,因此最终导致提取出的语料错误较多,且有大量的有价值语料无法被完整地提取出来。
基于以上考虑,计算机只能够担当辅助的功能,从一定程度上帮助研究人员实现原始语料的提取,而不能够完全取代人承担语料提取的工作。
发明内容
本发明的目的在于解决现有技术中的上述不足,提供一种计算机辅助语料提取方法,利用计算机作辅助,能够有效地提高语料提取的效率,将人从繁重的提取工作中解放出来。
为实现上述的目的,本发明所述的计算机辅助语料提取方法,包括如下步骤:
第一步,提取需要入库的中英文语料,并实时显示选中内容;
第二步,利用数据库来保存用户端录入的术语和句式,所述数据库包括术语库和句式库;
第三步,根据数据库的历史语料信息,对术语库或者句式库进行更新。
在第一步中,用户端事先导入需要提取语料的句对文档,该文档中所有句对使用SGML格式表示,典型表示如下:
<TrU>
<Quality>71
<CrU>ALIGN!
<CrD>18072010, 16:09
<Seg L=EN-US>Proteins constitute that class of biochemical compounds most characteristic of protoplasm and life.
<Seg L=ZH-CN>蛋白质构成的一类生物化学化合物最具有原生质和生命的特征。
</TrU>
为了将各组句对中的中英文句子分别放入显示的文本框中,可以以<Seg L=EN-US>和<Seg L=ZH-CN>为标志,它们后面的部分即为相应的英文和中文句子。然后在系统显示的句对中采用按下鼠标左键进行涂抹的方法选中想要入库的中英文语料,进而捕捉鼠标左键抬起的动作,在鼠标左键抬起之前选中的文本就是希望提取的语料。
其中,术语和句式的提取方法是有不同的。由于术语的提取都是连续的,所以只要通过捕捉鼠标左键按下和抬起的动作,记录下用户端涂抹选中的术语即可。但是句式往往是不连续的,比如需要从英文句子“These amino acid side chains are found both in the interior and on the solvent protein interface in significant proportions.”中提取“both…and…”句式,此时就不能像提取术语那样单纯地捕捉一次鼠标左键按下和抬起的动作了。对于这种情况,本发明的处理方法是:句式前半部分的提取与提取术语相同,系统会将记录的前半部分存入字符串变量A,进而用户端需按住Ctrl键以告知系统该句式是非连续的,目前只提取了其中的一部分,此时系统会自动生成省略号字符串“…”,记为B。然后用户端可以再次按下鼠标左键涂抹选中句式的后半部分,这时选中的内容记为变量C。最后生成的完整的句式就是A+B+C。
至于实时显示功能,就是将用户端当前选择的术语或句式存入某个临时变量,并在文本框中显示出这些变量的具体内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学出版社有限公司,未经上海交通大学出版社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110234409.6/2.html,转载请声明来源钻瓜专利网。