[发明专利]指代消解方法和装置、电子设备及存储介质有效
| 申请号: | 201910905211.2 | 申请日: | 2019-09-24 |
| 公开(公告)号: | CN110674630B | 公开(公告)日: | 2023-03-21 |
| 发明(设计)人: | 薛小娜 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/253 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 许书音 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 指代 消解 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供的指代消解方法和装置、电子设备及存储介质,涉及指代消解技术领域。在本申请实施例中,首先,对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合。然后,针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称。其次,计算该代词与对应的候选人称之间的相关度,以进行代词消解。通过上述方法,可以提高指代消解的准确度。
技术领域
本申请涉及指代消解技术领域,具体而言,涉及一种指代消解方法和装置、电子设备及存储介质。
背景技术
代词指代在自然语言中非常常见,尽管这种现象简化了表达,但其给机器理解带来了巨大的挑战。在信息抽取领域,人们关心的实体以及不同实体之间的关系往往散布于文本的不同位置,而且这些涉及到的实体有许多不同的表达方式,为了最大化利用文本信息(即从文中抽取更多的准确的、完整的相关信息),必须对文本进行指代消解。
目前指代消解在问答系统、机器翻译等方面也起着至关重要的作用。为了更加方便和准确的给其它任务(如关系抽取、实体链接、个人标签设置等场景)使用,需要对文本数据进行处理,把文本中的人称代词尽可能地进行消解。
但是,经发明人研究发现,在现有技术中,直接对待处理的文本进行代词消解,从而存在着指代消解的准确度并不高的问题。
发明内容
有鉴于此,本申请的目的在于提供一种指代消解方法和装置、电子设备及存储介质,以改善现有技术中存在的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种指代消解方法,包括:
对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合;
针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称;
计算该代词与对应的候选人称之间的相关度,以进行代词消解。
在本申请实施例较佳的选择中,所述对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合的步骤,包括:
检测所述待处理的文本中的标点符号,根据检测得到的标点符号将所述待处理的文本切分为多个短句,并对每个所述短句进行依存分析,得到对应的依存句法结构数据;
根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合。
在本申请实施例较佳的选择中,所述根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合的步骤,包括:
根据所述依存句法结构数据获取所述多个短句中第一个元素的主谓关系节点作为基础节点,并判断所述多个短句中的其他元素是否存在主谓关系节点;
若其他元素存在主谓关系节点,则将该元素的主谓关系节点作为基础节点;
若其他元素不存在主谓关系节点,则将所述基础节点作为该元素的主谓关系节点,以得到替换后的多个简单句子。
在本申请实施例较佳的选择中,所述针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称的步骤,包括:
根据该简单句子集合包括的每个简单句子的依存句法结构数据获取人名列表,并根据该人名列表建立对应的代词列表;
根据所述代词列表获取所述代词之前的人称的代词特征和所述代词的代词特征;
分别对所述简单句子中所述代词之前的人称和所述代词的代词特征、单复数特征和性别特征进行比较得到所述代词对应的候选人称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910905211.2/2.html,转载请声明来源钻瓜专利网。





