[发明专利]标注方法、关系抽取方法、存储介质和运算装置在审

申请号：	202010124863.5	申请日：	2020-02-27
公开（公告）号：	CN111291554A	公开（公告）日：	2020-06-16
发明（设计）人：	代亚菲	申请（专利权）人：	京东方科技集团股份有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F16/35;G06F16/36
代理公司：	北京天昊联合知识产权代理有限公司 11112	代理人：	柴亮;姜春咸
地址：	100015 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标注方法关系抽取存储介质运算装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种标注方法、关系抽取方法、存储介质和运算装置。该标注方法中包括：确定待标注文本、多个正确种子和多个错误种子；根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板；根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子；根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子，其中评价合格的种子作为正确种子。重复执行上述遍历步骤设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止，输出匹配出的正确种子及该正确种子中第一实体和第二实体之间的分类关系。

技术领域

本公开涉及语言识别技术领域，更具体地，涉及一种标注方法、一种关系抽取方法、一种存储介质和一种运算装置。

背景技术

在自然语言识别技术领域通常会基于深度学习进行关系抽取。前提是提供大量的标注好数据以进行模型的训练。现有的做法是基于人工对每一个句子进行标注。人力和时间成本都很高。

发明内容

本公开提供一种标注方法、一种关系抽取方法、一种存储介质和一种运算装置，以至少部分解决现有技术中存在的技术问题。

本公开第一方面提供一种标注方法，包括：

步骤S1、确定待标注文本、多个正确种子和多个错误种子，所述待标注文本中的每个句子均已由标签标示出一个第一实体和一个第二实体，所述正确种子和所述错误种子均是由第一实体和第二实体构成的实体对；

步骤S2、根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板；

步骤S3、根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子；

步骤S4、根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子，其中评价合格的种子作为正确种子；

步骤S5、用步骤S4中得到的正确种子替换步骤S2中的正确种子重复执行步骤S2-S4设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止；