[发明专利]一种中文句法分析方法和系统在审
申请号: | 202110023058.8 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112699664A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 俞莲 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06N20/00 |
代理公司: | 北京中普鸿儒知识产权代理有限公司 11822 | 代理人: | 刘浩 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 句法 分析 方法 系统 | ||
1.一种中文句法分析方法,其特征在于,包括以下步骤:
步骤S1:对输入的文本进行分句、分词,并标注词性;
步骤S2:识别句子中的词组;
步骤S3:识别句子中的短语;
步骤S4:识别句子的构架;
步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,所述词组包括惯用型词组和一般词组,所述惯用型词组指词组形式的惯用表达以及包含特定字或名词的词组形式的惯用表达,一般词组指组合式名词。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述短语包括惯用型短语和一般短语,所述惯用型短语指以短语节点库中的字、词或其搭配词作为节点的短语形式的惯用表达,由节点和组分构成,所述组分包括名词、词组、动词、形容词、副词、短语或子句。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括:
S31、对每个分句从左到右与短语节点库进行对比,识别单节点或双节点;
S32、将句子从左到右距离最近的双节点和所述双节点之间的内容标注为双节点惯用型短语;
S33、识别一般短语,所述一般短语指动词+名词组成的短语和 “的”字形容词短语,其中,“的”字前为名词、代词、形容词或“名词+动词”;
S34、如果识别出前单节点,则将所述前单节点到紧随其后的不在形容词短语或双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果识别出后单节点,则将所述后单节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4包含:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、对比惯用型句式库,识别并标注惯用型句式;
S43、识别并标注句子核心动词;
S44、识别“的”字所属结构;当分句中存在两个以上“的”字,并且所述“的”字的前后均为名词、词组或代词时,按中文语法将“的”字解析为名词、词组或代词间的所属关系,以最后的“的”字及其前的内容为其后内容的定语;
S45、对于句子中的代词、短语、形容词、副词、介词、连词、助词、数量词、关系词以及标点符号按中文语法解析并标注语法成分或关系;
S46、确定并标注句子的主语、谓语和宾语,对于一般句式,核心动词为句子的谓语,除去虚词(副词、介词、连词、助词、叹词和拟声词)、关系词、作定语或状语的短语以及子句,将核心动词左侧的组分标注为句子的主语,将核心动词右侧的组分标注为句子的宾语;惯用型句式的主语、谓语、宾语的判断根据人工设定。
6.根据权利要求5所述的方法,其特征在于,所述步骤S43包括:
1)找到一般句式中不能作为核心动词的动词,判断方法为:主句句首动词不作核心动词,句首动词包括其前带有短语、副词、介词、形容词或数量词的动词;词组中的动词不作核心动词;形容词短语中的动词不作核心动词;节点为非动词的惯用型短语中的动词不作核心动词;“的”字前/后的动词不作核心动词;
2)除所述不作核心动词的动词,将主句或分句自左到右的第一个动词标注为该句的核心动词。
7.一种中文句法分析系统,其特征在于,所述系统包括词语识别模块、短语识别模块、句子识别模块、句法分析模块和数据库,其中,
数据库包括词语库、惯用型短语节点库和惯用型句式库;
词语识别模块用于识别词语,包括名词和词组;
短语识别模块用于识别短语,包括惯用型短语和一般短语;
句子识别模块用于识别句子主体构架,包括一般句式和惯用型句式;
句法分析模块用于对句子进行句法分析、标注句子组分的语法成分及输出句法分析结果,包括应用的语法规则,所述句子组分包括词和词组、短语、核心动词、形容词、副词、连词、数量词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110023058.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁耦合电感器
- 下一篇:一种面向铁路编组站的尾部编组计划确定系统及方法