[发明专利]一种基于标点符号处理的汉语句法分析方法及装置有效
申请号: | 201510562372.8 | 申请日: | 2015-09-07 |
公开(公告)号: | CN105243056B | 公开(公告)日: | 2018-02-06 |
发明(设计)人: | 饶志刚 | 申请(专利权)人: | 饶志刚 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 223600 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标点符号 处理 汉语 句法 分析 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于标点符号处理的汉语句法分析方法及装置。
背景技术
句法分析是自然语言处理的核心技术之一,是对语言进行深入理解的基础,而自然语言理解又是机器翻译、信息抽取、语义检索等众多语言处理技术的基础。因此,句法分析是中文信息处理的一项不可或缺的核心与基础技术。
标点符号是书面汉语的一个重要的组成部分,绝大多数现有的自动句法分析系统都忽略了它们的作用。论文《引入标点处理的层次化汉语长句句法分析方法》(李幸,宗成庆,中文信息学报,第20卷,第4期)指出,在英语句法分析方面,一些与标点符号相关的研究已经开展,但对于汉语标点符号从自然语言处理角度的研究开展的很少。上引论文提出了一种基于标点处理的层次化汉语长句句法分析方法,但该论文把标点简单地划分为“分割标点”和“普通标点”,并采用概率上下文无关方法来处理标点。这种方法对标点符号的处理不够全面,忽略了标点符号的部分语法和语义信息,而且层次不够清晰,难以处理复杂的标点符号的嵌套使用问题。
本发明根据标点符号的用法和形式特征对标点符号进行分类,用分层分级法对原始输入句中的标点符号及标点符号分隔开来的子句赋予不同的标记,生成标记表,然后用标记消解法进行基于标点符号处理的句法分析。所述方法以GB/T 15834-2011《标点符号用法》为依据,在句法分析中充分利用了标点符号的语法和语义信息,使句法分析的层次更加清晰,有助于分隔长句、确定子句的层次和边界,大大减少时间消耗和歧义边的个数,提高句法分析的准确率和召回率。同时,该方法可以非常简便清晰地解决标点符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本申请的目的是为了克服现有汉语句法分析方法对标点符号处理的不足, 提供一种新的基于标点符号处理的汉语句法分析方法及工具。
为实现上述目的,根据本申请所提供的一种实施例,提供了一种基于标点符号处理的汉语句法分析方法,该方法基于以下思想:
根据上述国标对汉语标点符号用法的说明,标点符号是有层次而且可以被分层分级的,其依据是标点符号停顿时间的长短、分割句子的能力和语义(例如语气、特殊含义、补充说明等)等方面的信息。相应地,被标点符号分隔开来的子句也可以被分层分级,这将为句法分析提供极大的便利。
上述思想为从句法分析角度研究标点符号提供了理论基础,本申请提供的一种基于标点符号处理的汉语句法分析方法包括标记阶段和消解阶段,标记阶段采用的方法为分层分级法,消解阶段采用的方法为标记消解法。
本申请提供的分层分级法根据原始输入句中标点符号和标点符号分隔开来的子句的层次和级别,生成一系列标记,最终输出标记表。所述标记表中标记的层次和级别,决定了标点符号及其子句的处理次序和方法。
在充分获取标点符号提供的语法和语义信息的基础上,本申请提供了标记消解法来进行句法分析。所述标记消解法,是指按层次和级别提取标记表中的标记,进入子句句法分析程序和子树拼接程序,分析和拼接过程中调用消解规则,最后生成完整句法树作为句法分析结果。
相应地,提供了一种基于标点符号处理的汉语句法分析装置,主要包括分层分级装置、标记消解装置、句法分析装置和子树拼接装置。分层分级装置的运行原理即所述分层分级法,标记消解装置的运行原理即所述标记消解法。
本发明的有益效果是,所述分层分级法生成的标记的级别就充分说明了句法分析过程中已经做过的处理程序和有待进行的处理程序,而且所述标记中的信息比较全面,使标点符号的处理层次分明,简单有效;标记消解法与不考虑标点符号的一遍分析方法和仅利用标点符号来分割长句的分析方法相比的优点主要在于:第一,句法分析的层次更加清晰,有利于分割句子,减少进入句法分析程序的子句的长度;第二,充分利用了标点符号提供的语法和语义信息,包括被标点符号分隔开来的子句的类型信息,大大减少了时间消耗和歧义边的个数,提高了句法分析的准确率和召回率;第三,可以非常简便清晰地解决标点符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于饶志刚,未经饶志刚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510562372.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:玻璃丝棉复合保温隔音板
- 下一篇:一种简易平板电脑支架