[发明专利]构建词典的方法和系统无效
| 申请号: | 200810222426.6 | 申请日: | 2008-09-16 |
| 公开(公告)号: | CN101425087A | 公开(公告)日: | 2009-05-06 |
| 发明(设计)人: | 李志恒;李新娟;包塔;邓毅;周枫;周杨 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 100084北京市海淀区中关村*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 构建 词典 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种构建词典的方法和系统。
背景技术
随着互联网技术的发展,越来越多的网站推出在线翻译的服务。使用者可以通过网站提供的在线翻译服务,查询中文对应的外文表达,或者查询外文对应的中文表达。
网站提供的在线翻译服务是否强大,依赖于所使用的词典中包含的词汇是否丰富和准确,而现有的中外文词典中的词汇一般依赖于人工输入和编辑。
在对现有技术的研究和实践过程中,发明人发现现有技术中存在以下问题:
现有在线翻译中,中外文词典依赖于人工输入和编辑,这样的方式无疑对构成词典带来庞大工作量和较低的效率,并且导致词典中能够收录的词汇信息较为有限。
发明内容
本发明实施例的目的是提供一种构建词典的方法和系统,以实现自动构建词典,并在词典中尽可能收录较多词汇。
为解决上述技术问题,本发明实施例提供的构建词典的方法和系统是这样实现的:
一种构建词典的方法,包括:
从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;
将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的相同中文文字确定为所述外文词汇的中文释义;
为所述中文与对应释义的外文建立索引。
优选地,所述符合预定模式的外文词汇,可以包括:
置于括号内的外文词汇;或,
符合预定格式的中文表达。
优选地,所述建立索引之后,还可以包括:
在接收到查询请求时,根据建立的索引查找查询词对应的译文。
优选地,所述为所述中文与对应释义的外文建立索引之前,该方法还包括:
从海量网页中抽取中文和外文的双语词句列表。
优选地,所述抽取过程中,还可以包括:
根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文词对应的不同外文翻译归并到一起,并将同一中外文词、词组所对应的雷同的翻译合并。
优选地,所述抽取中文和外文的双语词句列表过程中,还可以包括:
对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
优选地,所述为所述中文与对应释义的外文建立索引之前,该方法还可以包括:
从海量网页中抽取出中外文交替出现的段落,并从这些中外文交替的段落中判断出互为翻译关系,从互为翻译关系的段落中解析出相互对应的句子。
优选地,所述抽取出中外文交替出现的段落过程中,该方法还可以包括:
对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
一种构建词典的系统,包括:
双语片段抽取单元,用于从海量网页中抽取符合预定模式的外文词汇及该外文词汇之前和/或之后的中文文字;
释义确定单元,用于将抽取的所述外文词汇前后的中文文字中出现次数达到或超过预定次数的中文文字确定为所述外文词汇的中文释义;
索引建立单元,用于为所述中文与对应释义的外文建立索引。
优选地,所述符合预定模式的外文词汇,可以包括:
置于括号内的外文词汇;或,
符合预定格式的中文表达。
优选地,所述系统还可以包括:
查询单元,用于在接收到查询请求时,根据建立的索引查找查询词对应的译文。
优选地,所述系统还可以包括:
双语词句列表收取单元,用于从海量网页中抽取中文和外文的双语词句列表;
相应地,所述索引建立单元,用于为所述中文与对应释义的外文建立索引。
优选地,所述系统还可以包括:
词汇优化单元,用于根据互联网页上有关词或词组的常见的错误情况滤除或修正候选翻译中错误的翻译,并把同一个中文词对应的不同外文翻译归并到一起,再把同一中外文词、词组所对应的雷同的翻译合并。
优选地,所述系统还可以包括:
句对优化单元,对于抽取的双语词句列表中的句子,根据互联网页上有关句子的常见的错误情况滤除或修正候选翻译中错误的翻译,将同一个中文句子对应的不同外文翻译归并到一起,并将同一中外文句子的雷同的翻译合并。
优选地,所述系统还可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810222426.6/2.html,转载请声明来源钻瓜专利网。





