[发明专利]基于大规模术语语料库对译稿自动碎片化分类的方法有效
申请号: | 201210591759.2 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103106245A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 大规模 术语 语料库 译稿 自动 碎片 化分 方法 | ||
技术领域
本发明涉及文档划分领域,具体而言,涉及一种基于大规模术语语料库对译稿自动碎片化分类的方法。
背景技术
目前,现有技术中的语料库的生产一般包括以下几个过程:
语料搜集:语料可以来自国家标准、行业标准及其他标准文献,也可以来自正式出版发行的辞典、百科全书、期刊、教材、报刊及其他工具书和权威性网站发布的相关文献;还可以通过与其他术语语料库联网、交换语料数据及记录载体等方式获得。
规范化处理:按照已定的标准格式或规则,对从各种途径获取的语料进行初加工。例如语料的查重、文件格式的统一转换等。
信息标注:对规范化处理后的原始语料,结合项目研究的近远期目标可采用里标语言进行篇章级、术语级等的信息标注。
术语语料库是语料库中的一种,其按照一定的格式和要求生成。
术语语料库的组织:为便于术语研究、语料交换和术语语料库系统开发,术语语料库中语料的存储和管理应尽量采用通用的分类 法进行分类组织。通用的分类方法如:中国标准文献分类法(ccs)、国际标准分类法(ICS)、GB/T13745学科分类与代码等。
由于大型语料库的规模非常大,术语语料数一般在百万到千万级别,大的甚至可以达到亿级,以术语语料为关键词在待译文稿中进行匹配要占用大量的存储空间而且花费的查询时间也非常多,实际效果非常不理想。
由于大型语料库内的语料数量巨大,而且待译稿件是个无序的文本空间,不利于将语料库中的术语作为关键词在待译稿件中进行术语匹配,以确定待译稿件的碎片化分类。
发明内容
本发明旨在提供一种基于大规模术语语料库对译稿自动碎片化分类的方法,以解决上述不利于译稿碎片化分类方法的问题。
在本发明的实施例中,提供了一种基于大规模术语语料库对译稿自动碎片化分类的方法,包括:
提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;
将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;
根据所述对应关系,确定每个段包含相同的最多的行业类别属性;
将最多的行业类别属性对该段分类。
优选地,判断所述译稿内的每段的词数;
如果所述词数小于阈值,则与相邻的下一段合并作为新的一段;
直到所述新的一段的词数大于阈值。
优选地,为每个段落建立ID;
建立属于同一个行业类别属性的多个段落的ID的集合,得到多个集合。
优选地,所述提取关键词的过程包括:对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的关键词集合。
由于待译文稿的词语数要远小于术语语料库的词语数;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图;
图2示出了实施例的方法采用的系统框架结构图;
图3示出了实施例中合并段的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。参见图1,实施例的流程包括:
S11:提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;
S12:将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;
S13:根据所述对应关系,确定每个段包含相同的最多的行业类别属性;
S14:将最多的行业类别属性对该段分类。
由于待译文稿的词语数要远小于术语语料库的词语数,经过分词处理后的词语数量还要大为减少;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。
优选地,参见图2,由系统中的分词处理模块提取关键词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210591759.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基因组序列的指纹特征曲线的构造方法
- 下一篇:吸湿快干和抗菌的毛领面料