[发明专利]计算机辅助语料提取方法有效
| 申请号: | 201110234409.6 | 申请日: | 2011-08-16 |
| 公开(公告)号: | CN102270242A | 公开(公告)日: | 2011-12-07 |
| 发明(设计)人: | 宫辰;管新潮;杨杰 | 申请(专利权)人: | 上海交通大学出版社有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
| 地址: | 200030 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 计算机辅助 语料 提取 方法 | ||
1.一种计算机辅助语料提取方法,其特征在于包括如下步骤:
第一步,提取需要入库的中英文语料,包括术语和句式,并实时显示选中内容;其中术语的提取是连续的,通过捕捉鼠标左键按下和抬起的动作,记录下用户端涂抹选中的术语;句式前半部分的提取与提取术语相同,系统会将记录的前半部分存入字符串变量A,进而用户端按住Ctrl键,此时系统会自动生成省略号字符串“…”,记为B,然后用户端再次按下鼠标左键涂抹选中句式的后半部分,这时选中的内容记为变量C,最后生成的完整的句式就是A+B+C;
第二步,利用数据库来保存用户端录入的术语和句式,所述数据库包括术语库和句式库;
第三步,根据数据库的历史语料信息,更新数据库。
2.根据权利要求1所述的计算机辅助语料提取方法,其特征在于:在第一步中,用户端事先导入需提取语料的句对文档,该文档中所有句对使用SGML格式表示,以<Seg L=EN-US>和<Seg L=ZH-CN>为标志,它们后面的部分为相应的英文和中文句子,然后在系统显示的句对中选中想要入库的中英文语料。
3.根据权利要求1所述的计算机辅助语料提取方法,其特征在于:在第一步中,所述的实时显示,是指将用户端当前选择的术语或句式存入某个临时变量,并在文本框中显示出这些变量的具体内容。
4.根据权利要求1所述的计算机辅助语料提取方法,其特征在于:在第二步中,将用户端之前选择的语料存入数据库,如果为Visual Basic 6.0环境,使用VB6.0中自带的Adodc控件,它能够搭建起连接各种数据库的桥梁;Source Name为预先建立好的语料数据库的名字PhrasExt,而RecordSource为数据库中所含表的名字,即dbo.term术语表或dbo.pattern句式表,最后再使用Windows操作系统自带的管理工具配置一下ODBC数据源。
5.根据权利要求1或4所述的计算机辅助语料提取方法,其特征在于:在第二步中,对于用户端具体选择的需要入库的语料,使用ADO的AddNew方法实现。
6.根据权利要求1所述的计算机辅助语料提取方法,其特征在于:第三步中,对数据库内容进行及时的更新,否则之前刚入库的语料记录就会丢失,实现过程中,借助于ADO的Update方法来实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学出版社有限公司,未经上海交通大学出版社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110234409.6/1.html,转载请声明来源钻瓜专利网。





