[发明专利]一种基于依存关系的“是”字句关系抽取方法和装置有效
| 申请号: | 202010390595.1 | 申请日: | 2020-05-11 |
| 公开(公告)号: | CN111597794B | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 王功明;谢超;王建华;张尧臣 | 申请(专利权)人: | 浪潮软件集团有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
| 地址: | 250100 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 依存 关系 字句 抽取 方法 装置 | ||
本发明提供一种基于依存关系的“是”字句关系抽取方法和装置,涉及命名实体识别、依存句法分析、文本复述、关系抽取等领域。本发明中基于依存关系的“是”字句关系抽取方法,主要包括以下步骤:S1:删除谓词“是”后进行依存句法分析;S2:替换谓词“是”后进行依存句法分析;S3:颠倒谓词“是”字前后子句位置;S4:根据谓词“是”字简化原始句子;S5:根据实体间的传递依存关系抽取关系三元组。本发明理论基础是对已处理“是”字句进行依存句法分析,可以呈现实体间的传递依存关系,从而得到描述实体间语义关系的三元组。本发明属于适用于“是”字句的专用关系抽取方法和装置,比通用关系抽取方法和装置具有较高的效率和准确性。
技术领域
本发明涉及命名实体识别、依存句法分析、文本复述、关系抽取等技术领域,尤其涉及一种基于依存关系的“是”字句关系抽取方法和装置。
背景技术
关系是描述实体对之间语义联系的三元组,其形式是(A,α,B),其中A、B是实体,α是实体间的语义联系。关系大量存在于自然文本中,例如:句子“M国总统K来到C国”中包含关系(M国,总统,K)和(K,来到,C国)。关系抽取是信息抽取领域的重要研究内容,可以建立不同实体间的依赖类型,将非结构化文本转化为结构化或半结构化知识,形成由知识构成的关系网络,用于智能问答、语义搜索、社团发现等智能型服务。
“是”字句是现代汉语中一种特殊句式,也叫判断句,是由表示判断的动词“是”和它的宾语组成的动宾短语作谓语的句子。在“是”字句里,动词“是”和宾语没有直接的语义搭配关系,“是”的作用是表示判断的性质,联结主语和宾语,表示主语和宾语之间具有同一关系或从属关系。例如:(1)某市是我国的首都;(2)自学是我们当今造就人才的一条重要途径。
“是”字句是现代汉语中使用频率相对较高的一种特殊句式,在媒体中占有的比例曾经高达20%,是语言学的研究重点,也是关系抽取的重要语料。
目前,常用的关系抽取方法包括:规则模板法、依存分析法、机器学习法,它们属于适用于所有语料的通用方法,普适性很好,可以抽取出“是”字句中存在的关系。但是,这些方法没有考虑“是”字句结构特点,存在抽取效率低、准确性差等问题。
所以,需要根据“是”字句的结构特点,开发专用的关系抽取方法和装置,提高抽取效率和准确性。
发明内容
为了解决以上技术问题,本发明提供了一种基于依存关系的“是”字句关系抽取方法,解决当前通用型关系抽取方法处理“是”字句语料时存在的效率低下、准确性差等问题,提高关系抽取的效果。
本发明的技术方案是:
一种基于依存关系的“是”字句关系抽取方法,包括以下步骤:
S1:初始化原始句子是否已简化标识isSimplified=false、“是”字前后子句位置是否已颠倒标识isReversed=false;
S2:删除谓词“是”后进行依存句法分析;
S3:判断删除谓词“是”后实体之间是否存在传递依存关系,如果不存在转S4,否则转SB;
S4:替换谓词“是”后进行依存句法分析;
S5:判断替换谓词“是”后实体之间是否存在传递依存关系,如果不存在转S6,否则转SB;
S6:如果isReversed==false,那么转S7,否则转S8;
S7:颠倒谓词“是”字的前后子句的位置,isReversed=true,转S2;
S8:如果isSimplified==false,那么转S9,否则转SC;
S9:根据谓词“是”字简化原始句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010390595.1/2.html,转载请声明来源钻瓜专利网。





