[发明专利]实体链接语料标注方法和装置在审
申请号: | 202111451201.X | 申请日: | 2021-11-30 |
公开(公告)号: | CN114139543A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 李启睿 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司;蚂蚁区块链科技(上海)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 语料 标注 方法 装置 | ||
本说明书实施例提供一种实体链接语料标注方法和装置,方法包括:针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;对于命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;基于目标命名实体、第一原始语料中的目标命名实体的上下文、N个目标候选实体中的第一候选实体,确定目标命名实体与第一候选实体之间的匹配度分数;按照匹配度分数由高到低的顺序,确定N个目标候选实体的排序;将标注辅助信息提供给标注人员作为标注的参考,标注辅助信息包括,命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。能快速构建特定领域的实体链接数据,减少人工标注成本。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及实体链接语料标注方法和装置。
背景技术
实体链接作为自然语言处理领域中的一项前沿任务,能够将文本中的实体指称(也称为命名实体或实体提及)与标准知识库(简称标准库)中的具体实体概念相链接,它有助于机器从语义层次理解命名实体的含义,并能够推动情感计算、语义分析、知识工程等相关领域的发展。
实体链接语料标注,就是将文本中的实体指称和对应的标准实体标注为实体指称,标准实体对,方便后续构造样本用于模型训练和效果评估。
目前实体链接相关的研究较多,但是缺少开放的语料库。另外不同领域的实体链接之间存在不少差异,希望能快速构建特定领域的实体链接数据,减少人工标注成本。
发明内容
本说明书一个或多个实施例描述了一种实体链接语料标注方法和装置,能快速构建特定领域的实体链接数据,减少人工标注成本。
第一方面,提供了一种实体链接语料标注方法,方法包括:
针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;
基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;
按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;
将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。
在一种可能的实施方式中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出多种类型的字符串;
从所述多种类型的字符串中筛选出预设类型的字符串,以得到所述命名实体集合。
在一种可能的实施方式中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出预设类型的字符串,以得到所述命名实体集合。
在一种可能的实施方式中,所述预设类型为公司类型,所述标准库包括多个公司各自对应的标准实体。
在一种可能的实施方式中,所述确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
基于所述目标命名实体、所述上下文、所述第一候选实体,针对多个特征项进行特征提取,得到对应的多个特征值;
根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数。
进一步地,所述多个特征项包括如下至少一种:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司;蚂蚁区块链科技(上海)有限公司,未经支付宝(杭州)信息技术有限公司;蚂蚁区块链科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111451201.X/2.html,转载请声明来源钻瓜专利网。