[发明专利]一种汉语概念复合块标注库规范化处理方法有效

专利信息
申请号: 201510863734.7 申请日: 2015-12-02
公开(公告)号: CN105446956B 公开(公告)日: 2018-08-28
发明(设计)人: 吕学强;周强;苗琳;董志安 申请(专利权)人: 北京信息科技大学;清华大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉语 概念 复合 标注 规范化 处理 方法
【说明书】:

发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。

技术领域

本发明属于计算机科学与自然语言处理的句法分析技术领域,具体涉及一种汉语概念复合块标注库规范化处理方法。

背景技术

自然语言是人类交流的主要方式,其不同于如编程语言等为计算机而设的“人造”语言。随着计算机和互联网的广泛应用,计算机需要处理的自然语言文本内容迅速膨胀,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究受到广泛关注。

句法分析是自然语言理解的一个核心组成部分,是对自然语言进行深层分析的基础技术。句法分析根据一定的语法规则,自动地识别出句子的语法结构及语法关系,将一个线性序列的句子转换成一个结构化的语法树。随着自然语言处理技术应用的日益广泛,句法分析的作用愈加突出,它几乎成为众多自然语言处理应用的关键技术,如机器翻译、信息抽取、问答系统、检索系统等。句法标注则是对语料库中的语料文本进行句法分析和标注,以形成树库语料。目前语料标注的研究成为计算语言学领域的一个重要的研究方向。现在,很多人的研究集中在标注语料资源的开发和构建标准的语料库标注体系上,例如,清华大学TCT语料库在语料标注上采用双标注集的原则,并提出汉语概念复合块,来描述复杂句的句法信息。

TCT语料库采用完整的树形层次结构描述框架,采用双标注集原则,对每个句法树上的非终结结点给出成分标记和关系标记,以尽可能多而详尽地描述汉语句子蕴含的复杂、多变、有组合特性的句法信息。此外,在句法信息描述方面,提出了概念复合块(ConceptCompound Chunk,CCC)这一概念,来中和词语层和小句层的距离。

概念复合块是由2个或2个以上的词语按照一定的关联关系组合形成的信息描述单位。在经过词语切分和词性标注处理之后,通过句法分析,把句子中不同实意词和功能词组合形成的概念复合块标注出来。并通过确定这些CCC的外部成分和内部关系标记,形成了大规模的汉语真实文本概念复合块标注库CCC Bank。

然而目前的标注过程中仍有以下问题:

(1)由于目前标注工具的限制,对一些在标注过程中发现的词类标注错误,无法进行手工调整,只是在相应的CCC成分标记上有所体现。

(2)为了保证概念复合块描述体系的完整性,需要对CCC块中嵌套的事件句式添加内部特征标记。在现有标注版本中,对这些有明显特征的子类标记进行了缺省处理,以提高人工校对效率。

(3)在语料库标注工作中,由于多人多轮校对流程的限制,且不同校对者认识上有差异,导致对时间块和空间块标注不一致的情况。

语料标注是一个庞大的工程,需要消耗大量的人力、物力,且标注质量不一定能够达到人们的要求,尤其是复杂句,较简单句而言,结构复杂,逻辑层次多,并列成分多,因此当前汉语语料库标注块的正确率和规范性还远远不够,不能满足需求。

发明内容

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的汉语概念复合块标注库规范化处理方法。

为了实现上述发明目的,本发明采用的技术方案如下:

一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。

进一步地,所述自动调整错误词类标记的过程包括以下四个步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;清华大学,未经北京信息科技大学;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510863734.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top