[发明专利]网页中提取双语平行正文的方法和系统有效

申请号：	201210442487.X	申请日：	2012-11-08
公开（公告）号：	CN102930031A	公开（公告）日：	2013-02-13
发明（设计）人：	李文强;刘飞;张宇;刘挺	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	张宏威
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页提取双语平行正文方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.由网页中提取双语平行正文的系统，其特征在于，该系统包括：

网页数据库，用于存储大规模随机爬取的网页及其属性；还用于通过网页的URL进行基于字符的散列处理，并将处理之后的所有网页按照其域名的相近程度分类存储；将所有网页按照其域名的相近程度分类存储是指：将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值，将主域名的哈希值相同的所有网页存在一个大类中，将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中，以此类推，将所有网页分类存储；

正文信息提取模块，用于提取每个网页的标签字符串，还用于提取该网页中的正文内容，并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度，并存储至网页数据库；

网页类型判别模块，用于对网页数据库中的所有网页的正文内容进行语言种类判断，如果所述正文内容中存在规模相当的双语文本，则判定该混合网页为混合网页，否则判断该网页为单语种网页；

混合网页处理模块，用于对混合网页中的双语文本进行互译判别，当判定为互译文本时，将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。

单语种网页处理模块，用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理，对每个单语种网页的处理过程为：将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别，选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页，将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库，并将所述两个单语种网页均标识为匹配。

2.根据权1所述的由网页中提取双语平行正文的系统，其特征在于，正文信息提取模块，还用于对提取的网页的标签字符串进行判断，当所述标签字符串为<html>、<body>、<td>、<p>、<span>或<div>时，继续提取该网页中的正文信息。

3.根据权1所述的由网页中提取双语平行正文的系统，其特征在于，正文信息提取模块，还用于在提取正文内容之后，判断正文内容的长度，并在所述长度大于30~80个字符的情况下，继续记录相应信息，否则记录该网页的URL，并将该网页从网页数据库中删除。

4.根据权1所述的由网页中提取双语平行正文的系统，其特征在于，所述互译判别的方法为：利用字典遍历获得互译双语文本中的词语，并将这些词语作为锚点，判断它们在双语文本中位置是否匹配，如果匹配率大于设定值，所述设定值的取值范围是0.3~0.7，则判定所述双语文本为互译文本。

5.根据权1所述的由网页中提取双语平行正文的方法，其特征在于，所述规模相当的双语文本是指两种语言文本的长度比例在设定范围内。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210442487.X/1.html，转载请声明来源钻瓜专利网。

上一篇：用于无线分布式计算的方法和装置
下一篇：一种中部出水的长效保温式恒温控制电热水器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页中提取双语平行正文的方法和系统有效

专利文献下载