[发明专利]逻辑谓词提取方法和装置有效
申请号: | 201810964841.2 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109062904B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 谢德刚;梅阳阳;郑文娟 | 申请(专利权)人: | 上海互教教育科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 韦志刚 |
地址: | 201210 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 逻辑 谓词 提取 方法 装置 | ||
本发明属于人工智能技术领域,且公开了一种逻辑谓词提取方法,包括以下步骤:S1:采用词典与CRF算法结合的方法进行序列标注和分词,采用半监督算法进行模型训练,通过建立数学领域专有词库扩展词典,先使用CRF算法进行序列标注,识别文本中的公式和数学命名实体。本发明采用序列标注和分词的结果构建句法树时,可以通过模型与规则的相互调节,使模型更加灵活,一方面减少了模型中使用规则的局限性,另一方面增加了模型的稳定性。且根据文本序列标记结果和语法树递归关系提取数学逻辑谓词,有效解决了一些长文本数学题目中复合逻辑关系的提取,相比将具有复合逻辑关系的句子根据句式特点拆为简单逻辑的句子的方法适用范围更广。
技术领域
本发明属于人工智能技术领域,特别涉及自然语言处理技术领域中的数学实体逻辑谓词提取方法和装置。
背景技术
目前人工智能领域迅速发展,自然语言处理技术应用广泛,而自然语言处理技术在数学等专业领域的研究较少。由于数学知识领域独特的语言特点,现有的自然语言处理算法直接应用于该领域的效果不佳。在初等数学题目描述的自然语言理解中,数学知识的表示是实现初等数学题意理解的基础,是人工智能推理的关键,现有的比较好的数学知识表示方法有谓词逻辑表示法,但目前已有的算法技术不能有效地利用数学中句法和句式的特征,导致在一些句子较复杂的数学题目中,数学实体识别和逻辑谓词提取准确度不高,对智能解题过程影响很大。
发明内容
本发明的目的是提供一种基于序列标注和语法树的逻辑谓词提取方法和装置,即根据文本序列标注结果和语法树递归关系提取数学逻辑谓词,有效解决了一些长文本数学题目中复合逻辑关系的提取。
本发明中,谓词是用来刻划个体词(可以独立存在的对象——事或物)的性质的词,即刻画对象之间的某种关系表现的词,谓词逻辑的语言就是围绕对象和关系建立起来的。在本发明中,逻辑谓词的设计基于数学知识表达的特点,包括数学实体的性质状态以及实体之间的关系。例如有下表:
序列标注是指对给定的一串序列中的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个字或者词。序列标注是NLP问题中常见的基本问题之一,比如信息提取问题可以认为是一个序列标注问题,如提取人名、地名等。
语法树是句子结构的图形表示,它代表了句子的推导结果,有利于理解句子语法结构的层次。简单说,语法树就是按照某一规则进行推导时所形成的树。
本发明实施例之一,一种逻辑谓词提取方法,包括以下步骤:
S1:采用词典与CRF算法结合的方法进行序列标注和分词,采用半监督算法进行模型训练,通过建立数学领域专有词库扩展词典,先使用CRF算法进行序列标注,识别文本中的公式和数学命名实体,并对未识别的部分则通过词典进行分词和词性标注;
S2:基于序列标注和分词结果,采用自下而上递归算法构造句法树,并从下而上解析句法树,按照一个完整的句法子树应产生一个谓词的原则,对整个谓词结构进行填补而得到句子完整的谓词逻辑表示。
所述步骤S1具体包括以下步骤:
S11、建立数学领域专有词库扩展词典,储存重点词语和词性;
S12、收集合理规范的数学题目作为训练样本,进行初步分词后,对训练样本进行人工标注;
S13、基于人工标注的训练样本生成预标注序列;
S14、对预标注序列进行分析,提取训练样本文本中的公式和数学命名实体,并对提取的公式实体按照识别的标记打标签,而对未识别的部分统一标记后再通过词典进行词性标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海互教教育科技有限公司,未经上海互教教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810964841.2/2.html,转载请声明来源钻瓜专利网。