[发明专利]网页中提取双语平行正文的方法和系统有效
申请号: | 201210442487.X | 申请日: | 2012-11-08 |
公开(公告)号: | CN102930031A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 李文强;刘飞;张宇;刘挺 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张宏威 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 提取 双语 平行 正文 方法 系统 | ||
技术领域
本发明涉及语料获取技术领域,具体涉及双语平行语料的获取技术领域。
背景技术
统计机器翻译是机器翻译的方法之一,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。近十年来,统计机器翻译的研究取得了很大进展,统计方法逐渐成为国际上机器翻译研究的主流方法。目前常用的机器翻译系统大多采用统计方法,比如Google翻译、Bing翻译和百度翻译。
在统计机器翻译技术中,平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料,是建立高性能统计机器翻译系统的必要条件。
目前的平行语料都有特定来源,它们的规模有限。
发明内容
本发明所要解决的技术问题是提供一种从网页中提取双语平行语料的方法与系统,以克服现有的语料库收集效率低和规模不足的问题。本发明提供了由网页中提取双语平行正文的方法和系统。
本发明所述的由网页中提取双语平行正文的系统包括:
网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指:将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;
正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;
网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;
混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。
单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。
本发明所述的由网页中提取双语平行正文的方法包括如下步骤:
存储大规模随机爬取的网页及其属性至网页数据库的步骤;
通过对已存储的网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储的步骤,该步骤具体包括:计算每个网页的域名中的主域名和每个子域的哈希值步骤,将主域名的哈希值相同的所有网页存在一个大类中的步骤,将该大类中所有网页中下一级子域名的哈希值相同的所有网页再划分到一个子类中的步骤,以此类推,将所有网页分类存储的步骤;
提取每个网页的标签字符串的步骤;
提取该网页中的正文内容的步骤;记录提取的标签字符串以及相应网页正文内容的编码类型和正文长度,并存储至网页数据库的步骤;
对网页数据库中的所有网页的正文内容进行语言种类判断的步骤,该步骤进一步包括:当判定所述正文内容中存在规模相当的双语文本时,判定该混合网页为混合网页的步骤,否则判断该网页为单语种网页的步骤;
对混合网页中的双语文本进行互译判别的步骤,该步骤进一步包括:当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库的步骤;
遍历网页数据库中的每一个未标识匹配的单语种网页进行处理的步骤,对每个单语种网页的处理过程包括:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别的步骤,该步骤中选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页;将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配的步骤。
上述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。
本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,由此带来的技术效果有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210442487.X/2.html,转载请声明来源钻瓜专利网。