[发明专利]一种中文句法分析方法和系统在审
申请号: | 202110023058.8 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112699664A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 俞莲 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06N20/00 |
代理公司: | 北京中普鸿儒知识产权代理有限公司 11822 | 代理人: | 刘浩 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 句法 分析 方法 系统 | ||
本发明提出一种中文句法分析方法和系统,包括制定规则(词语规则、短语规则、句子规则和句法分析规则)、分词、标注词性、识别词和词组、识别惯用型短语、识别惯用型句式、识别句子核心动词、句法分析并按中文语法标注句子组分的语法成分或关系,以及按需求输出分析结果。本发明从中文语言特征入手,深入挖掘了中文文字与句子结构的特点,充分利用中文语法和表达习惯,通过规则设计,实现中文句子语义的智能解析。句法分析层次和过程简洁、快速和直观,特别对于解析结构较特殊的句子和大量文档提高了准确度和效率。本发明可广泛应用于人工智能领域,像人机问答、文本聚类、文本相似度计算、机器翻译、智能检索、智慧城市和机器人等。
技术领域
本发明涉及自然语言分析技术领域,尤其涉及一种中文句法分析方法和系统。
背景技术
自然语言处理是人工智能和语言学领域的分支学科,是利用计算机工具对人类特有的书面形式和口头形式的自然语言信息进行各种处理和加工的技术。自然语言处理大致分为两个层面,一个是浅层分析,如分词、词性标注。这种技术只需对句子的局部范围进行分析处理。另一个层面是对语言进行深层的处理,需要对句子的句法、语义、语用进行全面分析。
目前,主流的句法分析方法主要通过词语间的依存关系进行句法分析,分析层次和解析过程复杂繁琐,句子组分之间的关系繁冗,解析准确度和速度仍然有待提高。句法分析是自然语言处理的关键技术环节,应用非常广泛,例如,结合句法分析技术,在自动问答装置中,通过计算提问的句子和知识库中对应的句子之间相似度在知识库中查找到对应答案。在信息过滤技术中,通过文本相似度计算自动过滤用户可能并不想看到的信息。但由于现有技术的缺陷,正确率、速度和召回率较低。
发明内容
针对以上问题,本发明提出一种中文句法分析方法和系统,从语言特征入手,充分挖掘了中文文字与结构的特点,利用现有中文语法和习惯,通过规则设计,实现中文的句子级语义的智能解析,从而让机器“看懂”语言。
根据本发明的一个方面,提出一种中文句法分析方法,包括以下步骤:
步骤S1:对输入的文本进行分句、分词,并标注词性;
步骤S2:识别句子中的词组;
步骤S3:识别句子中的短语;
步骤S4:识别句子的构架;
步骤S5:对句子进行句法分析,并按中文语法标注和输出句子组分的语法关系。
进一步的,在所述步骤S2中,所述词组包括惯用型词组和一般词组,所述惯用型词组指词组形式的惯用表达以及包含特定字或名词的词组形式的惯用表达,一般词组指组合式名词。
进一步的,在所述步骤S3中,所述短语包括惯用型短语和一般短语,所述惯用型短语指以短语节点库中的字、词或其搭配词作为节点的短语形式的惯用表达,由节点和组分构成,所述组分包括名词、词组、动词、形容词、副词、短语或子句。
进一步的,所述步骤3包括:
S31、对每个分句从左到右与短语节点库进行对比,识别单节点或双节点;
S32、将句子从左到右距离最近的双节点和所述双节点之间的内容标注为双节点惯用型短语;
S33、识别一般短语,所述一般短语指动词+名词组成的短语和 “的”字形容词短语,其中,“的”字前为名词、代词、形容词或“名词+动词”;
S34、如果识别出前单节点,则将所述前单节点到紧随其后的不在“的”字形容词短语或双节点惯用型短语中的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语,如果识别出后单节点,则将所述后单节点到紧靠其前的“动词+名词”,或动词,或词组或名词的部分标注为单节点惯用型短语。
进一步的,所述步骤S4包含:
S41、对比惯用型句式库,判断句子是否为复合句;
S42、对比惯用型句式库,识别并标注惯用型句式;
S43、识别并标注句子核心动词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110023058.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁耦合电感器
- 下一篇:一种面向铁路编组站的尾部编组计划确定系统及方法