[发明专利]一种基于标点符号处理的汉语句法分析方法及装置有效
| 申请号: | 201510562372.8 | 申请日: | 2015-09-07 |
| 公开(公告)号: | CN105243056B | 公开(公告)日: | 2018-02-06 |
| 发明(设计)人: | 饶志刚 | 申请(专利权)人: | 饶志刚 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 223600 江苏省宿*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 标点符号 处理 汉语 句法 分析 方法 装置 | ||
1.一种基于标点符号处理的汉语句法分析方法,其特征在于该方法包括标记阶段和消解阶段,其中,
标记阶段:
a)研究汉语标点符号的用法和形式特征,以及被标点符号分隔开来的子句的句法特征,将标点符号和子句分层分级,分为第一层到第五层共五个层次,包含-1级到10级共12个级别;
b)依据a)所述标点符号及子句的特征,编写消解规则,生成消解规则表;
c)依据a)所述标点符号及子句的层次级别关系,用分层分级法将原始输入句转化为一系列标记,生成标记表;
消解阶段:
aa)搜索所述标记表,看是否有语段级即-1级标记;
bb)如果没有上述语段级标记,则进入普通消解程序,按层级提取标记进行消解;
cc)如果有上述语段级标记,则进入特殊消解程序,消解完成后转步骤aa);
dd)判断标记表是否为空,如果为空则输出整个句子的完整句法树,否则转步骤bb);
ee)上述过程中,有任何一个应该被分析为完整子树的子句没有生成完整子树,则句法分析失败;
标记阶段步骤c)中的所述标记有包含和被包含关系,依据是标记中子句的起始位置和终止位置,所述分层分级法生成标记表的具体步骤如下:
11)生成两张表,即待分析标记表,以下称表1,和已处理标记表,以下称表2,并初始化为空;
12)用整个原始输入句生成种子标记,标记为0级,即未处理整句,压入表1;
13)判断表1是否为空;
14)如果表1为空,则分层分级程序结束,输出表2为标记表;
15)如果表1不为空,弹出表1顶层的标记,从第一层到第五层逐层逐级检测其中包含的标点符号和子句;
16)判断是否检测到标点符号和子句;
17)如果没有检测到,则升级到该标点符号对应的级别,压回表1;
18)如果检测到,则判断是否已经为10级;
19)如果为10级,直接压入表2,转步骤13);
20)如果不是10级,则生成新标记,升级到该标点符号对应的级别后,压入表2,同时压入表1,转步骤13);
上述步骤16)中,如果检测到语段级,即引号、括号、书名号内部的子句,则所述内部的子句生成新标记,标记为-1级,压入表1和表2,再逐级向上检测,-1级标记一侧或两侧如果不为空,也生成新标记,并升级,引号、括号、书名号一侧或两侧的子句分别升级到7级、8级和9级,但只压入表1不压入表2;
消解阶段步骤bb)所述普通消解程序的具体步骤为:
21)在所述标记表中搜索级别低于10级的最高级别标记,以下称标记1;
22)在所述标记表中搜索标记1范围内级别为10级的标记,以下称标记2,并弹出;
23)对标记2中的子句进行句法分析,分析过程中调用消解规则;
24)对标记2中的子句进行子树拼接,拼接过程中调用消解规则;
25)将标记2的分析结果赋予标记1,并将标记1升为10级;
消解阶段中步骤cc)所述特殊消解程序有一个递归过程,根据标记的包含和被包含关系,如果消解完被包含在最内层的语段级标记,则判断标记表中是否还有语段级标记,如果有则递归调用特殊消解程序,否则调用普通消解程序,所述特殊消解程序的具体步骤如下:
31)搜索最内层语段级即-1级标记,以下称标记3,搜索标记3范围内所包含的标记序列,如果所述标记序列只有一个标记且为10级,此时语段只包含词和/或短语,没有标点符号,则直接进入句法分析程序,然后转步骤34),否则转步骤32);
32)进入普通消解程序消解上述标记序列中的标记;
33)判断上述标记序列是否为空,如果不为空则转步骤32);
34)如果上述标记序列为空,则调用-1级标记消解规则消解标记3,转消解阶段的步骤aa)。
2.如权利要求1所述的方法,其特征在于,所述分层分级法生成的标记表中的标记,清晰地指明了各个子句的级别,以及子句类型和划分子句所依据的标点符号,所述级别决定了标记的生成次序,也决定了消解阶段的标记中标点符号和子句的处理次序,因此可以解决复杂的标点符号的嵌套使用问题,而不用穷举所有的标点符号组合用法。
3.如权利要求1所述的方法,其特征在于,标记阶段步骤b)中的消解规则的内容,是在句法分析和子树拼接中如何处理标点符号包含的语法和语义信息以及如何去除标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于饶志刚,未经饶志刚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510562372.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:玻璃丝棉复合保温隔音板
- 下一篇:一种简易平板电脑支架





