[发明专利]一种基于滑动语义串匹配的句法分析方法有效

专利信息
申请号: 201310492589.7 申请日: 2013-10-18
公开(公告)号: CN103500160A 公开(公告)日: 2014-01-08
发明(设计)人: 王伟;黄德根 申请(专利权)人: 大连理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 大连理工大学专利中心 21200 代理人: 李宝元;梅洪玉
地址: 116024*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于计算机自然语言处理领域,涉及一种对人类自然语言句子进行高质量的句法分析的方法,具体是指一种基于滑动语义串匹配的句法分析方法。其特征是在建立规则库时,首先对通常短语句法树进行了层次的扁平化转换,然后对每一层的组块信息进行语义码标注,从而提取N元上下文有关文法的组块规则;在句法分析时,通过滑动语义串匹配模型匹配出最优的组块规则进行层叠组块式分析;通过错误修正模板在高层发现和修正低层中的错误,实现层叠组块式句法分析中的启发式回溯处理;通过在语义模板索引中直接加入模板信息,实现机器对新句法规则的即时学习。本发明解决了概率上下文无关文法(PCFG)型句法分析水平难进一步提高以及层叠组块型句法分析中难以选择正确的组块规则的难题,提高了现有句法分析水平。
搜索关键词: 一种 基于 滑动 语义 匹配 句法 分析 方法
【主权项】:
1.一种基于滑动语义串匹配的句法分析方法,其特征在于以下步骤: 一、扁平分层的短语结构句法树表示 采用层叠组块分析方法,句法分析的结果采用短语结构二叉树表示,在表示时,对通常的短语句法树进行了层次的扁平化转换; 二、N元上下文有关文法的规则提取 第一,按照语义词典,对用于训练的句法树库中句子的词标注对应的语义码;对于单义词,由机器按照语义词典中词的语义码一一对应实现自动标注;对于多义词,根据词所在上下文中的信息,由人从语义词典中选定最适合的语义码进行标注,由n个词构成的句子的语义码的标注为S1,S2,S3,…,Sn; 第二,按照扁平层次化的短语结构句法树的层次,对每层两两组合成的一个组块Chunk进行语义标注;该组块的语义码按照组块的中心词位置,从前一层的词或组块的语义码继承下来,作为当前新组块的语义码;组块的语义标注从第0层开始,自底向上逐层进行,直到完成最后层的根组块的语义标注,即完成对整个句法树的语义标注;组块语义码的格式为:“组块名XPx:语义码Sx”; 第三,对每一层所有基元,按每移动一个基元位置,以N个基元长度进行切分分组,一个基元是指一个词的语义码或者一个组块的语义码;即以“长度为N的窗口”从每一层的前端开始滑动,每滑过一个基元位置,就从该窗口中抽取构成组块的规则;该规则是指,当前窗口中的N元基元信息,如何进行组块而成为下一层中的信息;把所有层的所有的每N长度的模板及其对应的组块信息都提取出来;对于每层的结尾部分不足N长度划分的,则采用实际长度进行提取,直到模板长度为1为止; 对用于训练的句法树库以外的句子的组块规则,采用机器即时学习的方法获得; 三、基于滑动语义串匹配的句法分析模型 采用滑动语义串匹配方法,即SMOSS模型,进行句法分析,工作过程参见表1; 表1:基于SMOSS模型的句法分析的基本过程表(一)N元语义码串与模板库模板的匹配操作 a.首先将待匹配的N元长度的语义码串与模板库中N元长度的语义模板,从开始基元到结尾基元逐个进行对应匹配; b.每个N元待匹配语义码串上的语义码与模板对应位置的语义码的匹配,是按照语义词典的编码格式由大类到小类顺序逐次进行匹配,若某类匹配失败则不进行余下类别的匹配;在匹配过程中,每个类级匹配成功一次,就得到该语义码在该类级的得分,将语义码在各个匹配类级上的得分进行累计,就是该语义码的匹配得分; c.当对N元语义码串中的N个语义码都匹配成功后,将这N个语义码的各个匹配得分按照权重进行汇总,就是该N元语义码串匹配到的模板的得分;同时将该模板的匹配得分直接传递到模板所对应的组块信息上,用于后续操作; (二)一个N元语义码串匹配出0个模板的处理 如果一个N元语义串匹配模板的结果是0,即没有相匹配的模板,则采用降元的方式处理; 当在N元长度上的语义码串匹配结果是0,则降元到N-1元的语义码串长度上进行匹配,如果匹配结果还是0,则再降元到N-2元的语义码串长度上进行匹配;以此类推,直到语义码串长度降元到2为止;每降元一次,语义码串匹配的模板的权重也相应降低; (三)一个N元语义码串匹配出多个不同模板的处理 对于一个语义码串匹配出多个模板的结果;则将该语义码串所对应的多个不同的模板都取出来,供随后的对这些模板分别取对应组块信息的操作; (四)一个N元模板对应到多个不同组块信息的处理 对于一个模板对应多种不同的组块结果,则将同一模板所对应的多个不同组块的信息都取出来,供随后的对组块信息进行汇总的操作; (五)一个N元语义串中未知语义码的处理 一个句子中如果有些未知词并不在语义词典中,那么这些未知词对应的就是未知语义码;对于未知语义码采用通配符“”方式进行模板匹配;未知语义码的匹配得分按语义码匹配计算时全匹配的满分来计算;整个匹配模板的得分是模板中各个已知语义码的匹配得分之和,加上模板中各个未知语义码的匹配满分之和。 (六)组块信息统计汇总的操作 当在某一层所有的通过滑动移位获取的N元语义码串都匹配完后,对这些模板所对应的组块信息进行汇总;在汇总时,首先在每一个基元位置上,统计与其相关的N元模板对应的组块信息对该位置上的各种信息的投票,然后根据该位置上这些相关的组块信息的匹配得分,这个得分是在模板匹配时传递过来的,将投票结果和组块信息的匹配得分按照汇总算法得到汇总得分;选择汇总得分最大的前p个作为候选的组块信息;然后从中选择第一最大得分的组块信息,作为组块成下一层的信息; 若汇总结果中有并列最大得分的,先顺序选择第一个作为选定,并暂假定这种选定的结果是对的,接着向下执行;若执行到下一层或下几层发现错了,则通过回溯处理,启发式地指定候选中的某一个,直到或者能有正确结果,或者全部候选都试完为止。 
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310492589.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top