[发明专利]汉印双语平行语料自动采集的系统及实现方法在审
申请号: | 201510407512.4 | 申请日: | 2015-07-13 |
公开(公告)号: | CN105045861A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 温家凯;农强;刘连芳;潘媛媛 | 申请(专利权)人: | 广西达译商务服务有限责任公司;南宁市平方软件新技术有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 张锋 |
地址: | 530007 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双语 平行 语料 自动 采集 系统 实现 方法 | ||
1.一种汉印双语平行语料自动采集的系统,包括汉印双语平行信息的自动发现模块、自动提取模块、自动整理模块,其特征在于:
(1)自动发现模块:实现汉印双语平行语料自动发现的功能,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;
(2)自动提取模块:实现汉印双语平行语料自动提取的功能,通过访问搜索结果数据库里的网页,自动提取汉印双语平行信息;
(3)自动整理模块:针对自动提取的汉印双语平行信息,进行数据过滤,并将经过过滤处理后的汉印双语平行数据存放到汉印双语平行语料库。
2.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉印双语平行语料自动发现工作流程为:制定一组或多组汉印互译关键词组,通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。
3.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉印双语平行语料自动发现设计原则为:
a.所选关键词组应为特定领域范围内的汉印互译词组对;
b.使用的第三方搜索引擎工具为开放式提供搜索服务方;
c.通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的热门程度关联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。
4.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使用对应的汉印互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获取页面数据。
5.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的网络双语平行语料提取原则:
a.规定访问的页面文件类型只能为“html”、“htm”、“shtml”以及常见的页面文件类型,对非规定类型的页面将不进行访问;
b.访问目标网页前,网络检查目标网站的robots.txt文件,若目标页面存在于robots.txt文件上,将不对该目标网页进行访问;
c.要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将视为抽取对象。
6.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的工作流程主要包含以下几个步骤:
(1)非目标语言信息过滤:分别对采集到的汉印数据进行字符过滤,主要过滤html标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉印双语平行数据;
(2)汉印分词过程:使用汉语和印度尼西亚语分词工具,对汉语和印度尼西亚语数据进行分词操作,为后面的数据处理过程提供基础。
7.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动整理模块的工作流程主要包含以下几个步骤:
(1)长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来的汉印双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较大的数据进行过滤,并进行汉印双语平行数据的互译匹配判断,筛选出正确的平行数据;
(2)将经过处理后的汉印双语平行数据将存放入汉印双语平行语料库。
8.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述汉印双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模块、自动整理模块嵌入数据处理服务器;
数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联网服务,数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组,确定采集任务后,向数据采集服务器发送启动自动采集请求,数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序,通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换机断开连接,并与内网交换机连接;
数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理,程序完成工作后,将获取到的所有的双语数据保存于数据存储服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西达译商务服务有限责任公司;南宁市平方软件新技术有限责任公司,未经广西达译商务服务有限责任公司;南宁市平方软件新技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510407512.4/1.html,转载请声明来源钻瓜专利网。