[发明专利]基于公共标识语的双语语料采集系统在审
申请号: | 201911388715.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111209461A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 张洁;王晓珊;李伟彬;刘华;费比;周黎;周辛雨 | 申请(专利权)人: | 成都理工大学;成都信息工程大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/58 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 钟显毅 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公共 标识语 双语 语料 采集 系统 | ||
1.一种基于公共标识语的双语语料采集系统,其特征在于,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及
第三语料信息存储模块,用于存储双语种公共标识语语料信息。
2.根据权利要求1所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。
3.根据权利要求2所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。
4.根据权利要求3所述的基于公共标识语的双语语料采集系统,其特征在于,所述公共标识语提取模块还连接有关键词库,
该关键词库用于保存公共标识语关键词,其中一部分公共标识语关键词为预设,并根据实际需求输入并扩充新的公共标识语关键词。
5.根据权利要求4所述的基于公共标识语的双语语料采集系统,其特征在于,还包括双语校正模块,用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。
6.根据权利要求5所述的基于公共标识语的双语语料采集系统,其特征在于,所述双语校正模块进行校正的过程为:
从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分,然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比,
若对比近似度不小于85%,则认为该部分的双语种公共标识语语料信息为可用,并将其存储在第三语料信息存储模块中,
若对比近似度不大于50%,则认为该部分的双语种公共标识语语料信息为不可用,则采用所述翻译词库对中文部分进行对应翻译,并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中,
若对比近似度介于50%~85%之间,则将该部分的双语种公共标识语语料信息作疑似标记,并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。
7.根据权利要求6所述的基于公共标识语的双语语料采集系统,其特征在于,对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都信息工程大学,未经成都理工大学;成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911388715.8/1.html,转载请声明来源钻瓜专利网。