[发明专利]一种自动解析英文文本语法现象的方法在审
申请号: | 201910088630.1 | 申请日: | 2019-01-30 |
公开(公告)号: | CN111581953A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 戴翰波;李辉;王丽 | 申请(专利权)人: | 武汉慧人信息科技有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 解析 英文 文本 语法 现象 方法 | ||
1.一种自动解析英文文本语法现象的方法,其特征在于:包括数据预处理模块、语法树映射模块以及结果输出模块三大模块:
数据预处理模块利用自然语言处理包,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等;
语法树映射模块将预处理模块得到的结果进行再处理,利用词性标记结果和依存句法分析结果,结合正则表达式,实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上;
结果输出模块主要将映射得到的语法现象,根据用户制定的选择策略输出,也可以全部输出。
2.根据权利要求1所述的数据预处理模块,具体处理流程为:
A.用任意的语法分析工具,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析,得到英语文本断句之后的结果,存为列表sentences
B.遍历列表sentences,对每一个句子sentence先调用依存句法分析方法得到树形结构的分析结果,存为dependency,然后对句子中每个单词进行标记,记为token,得到每个token代表的单词形式word,word对应的单词原型lemma,词性标记结果pos,以及命名实体识别结果ner
C.由上述结果整理得到句子和单词的信息组,两者分别包含[文本text,依存关系dependency]和[id号,word,词性标注pos,原型lemma,命名实体识别ner],作为下一模块语法树映射模块的输入。
3.根据权利要求1所述的语法树映射模块,其中模块包括词法分析和句法分析两部分,词法分析又细化为普通单词的词法分析以及依赖句法的词法分析两部分。
4.根据权利要求1所述的结果输出模块,主要流程如下:
A.用户根据自己需要制定选择策略,策略的制定可以是语法树上的任意一个节点或者任意节点的组合要求,更特殊的,可以选择一棵子树,即某一大类的输出,如:选择策略,词法中定义为形容词,句法中定义为基本句型和句子种类
B.根据用户定义的选择策略,进行语法现象的筛选。我们遍历语法树映射后的所有语法现象,查看每一条语法现象是否包含用户选择的语法树中的节点组合中的节点,如果包含则是满足条件的语法现象,反之,该条语法现象不满足用户定义的选择策略
C.将上一步得到的结果整理输出,返回给用户。
5.根据权利要求3所述的词法分析过程,包括以下几部分:
A.读入单词信息组[id号,word,词性标注pos,原型lemma,命名实体识别ner],以及句子信息组[文本text,依存关系dependency]
B.调用遍历我们自己归纳的复合名词词汇表,进行复合名词的识别,以及其主谓一致现象的识别
C.词性标注类别分组,将语法树中的词法类别(包括名词、数词、形容词、副词、常见限定词、代词、动词、介词、冠词、连词)与词性标注结果对应起来
D.每类词法类别下,利用句子的依赖关系进行判断,查看树结构形成的依赖关系记录中,该单词的父节点具有的词性,实现单词功用的解析
E.单词对应形态变化的语法,利用word和原型lemma的对比给出
F.单词词组固定搭配的识别,不涉及语法的,利用原型lemma的正则匹配实现
G.涉及语法的固定搭配的识别,利用词性标注pos和单词word或原型lemma实现
H.语法树词法现象中最后叶子节点细化到某个词的解析,先用单词原型lemma进行识别,然后利用词性标注pos锁定词性分支,最后根据上下文特征细化到最后一层匹配。
6.根据权利要求3所述的句法分析过程,包括以下几部分:
A.读入句子信息组[文本text,依存关系dependency]
B.利用词性标注为VB.*(动词的各种变化形态)实现时态或非谓语形式的解析
C.利用文本内容进行正则表达式匹配,结合匹配单词的词性标注结果pos,识别不同句型的标志词或引导词,达到句子种类的判别
D.进而根据不同句型进行细化分析,主要利用每个单词之间的依赖关系和单词及词性的正则匹配,这里的正则匹配主要是(id)lemma和pos的结构组合
E.记录依赖关系,进行句子结构的分析,查看该句拥有的依赖关系,判断基本句型和句子语序下的语法现象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉慧人信息科技有限公司,未经武汉慧人信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910088630.1/1.html,转载请声明来源钻瓜专利网。