[发明专利]命名实体识别模型训练方法及设备、信息抽取方法及设备有效
| 申请号: | 201910402380.4 | 申请日: | 2019-05-15 |
| 公开(公告)号: | CN110134959B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 李楚桐;胡楠 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/047;G06N3/08 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 方成;张川绪 |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 模型 训练 方法 设备 信息 抽取 | ||
提供了一种命名实体识别模型训练方法及设备、信息抽取方法及设备。所述本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;基于匹配结果,获得相应训练文本的有效命名实体标注;获得训练文本集中的各训练文本的向量表示;基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
技术领域
以下描述涉及信息抽取领域,更具体地说,涉及一种命名实体识别模型训练方法及设备、信息抽取方法及设备。
背景技术
现在,信息抽取是各个行业所面临的一个比较普遍的问题。例如,在工业界,在业务人员处理各种业务问题过程中,各种类型的文章是业务人员的重要参考材料,业务人员每日需要挖掘文章中的重要信息,但海量文章却令人脑难以负荷。以深圳证券交易所(简称“深交所”)的工作内容为例,2016年全年共披露265985篇公告,2017年共披露291607篇公告,随着上市公司数量日益增多,这一数字也会逐年增加,不但为合规检查带来压力,也给投资者带来极大的信息负载。
此外,标签的准确程度在很大程度上影响着信息抽取。为了使用人工智能技术来进行信息抽取,通常通过人工来进行标注数据,可是人工标注存在两个问题,一是标准不一,例如,对于“40000”,可能被标注为“4万”,也可能被标注为“40,000”,这不利于模型的学习;二是人工本身也会出错,一些较长的数字、小数可能被标注错误。
此外,在实际应用中,工作人员除了通过人眼观察进行人工抽取外,也以一定的规则进行结构化数据的抽取。例如,某几个关键词后面的就是待抽取的某个字段,但规则表达依赖的变量和维度是非常有限的(例如,当所限定的规则为“于”之前的内容就是实体“企业名”,这样的规则比较刚性,泛用性差)。因此规则表达所限定的边界是非常刚性的,随着语料库的增大,一旦不包含命名实体的语句和包含实体的语句有一定的相似,就会产生一个假阳性的错误抽取。
一般的信息抽取方法通常会采用基于规则的方法。在基于规则的方法中,使用分词逐句对文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;对预处理过的文本采用对应匹配抽取方式进行对应的信息抽取操作。然而,在基于规则的方法中,由于需要大量的人工工作来制定抽取的专家规则,这与高成本低效率的人工查询公告实体并没有本质区别。此外,大量的人工工作通常会存在疏漏,因此,制定的规则并不是完全准确的,例如,某个公司的实体规则制定一旦出现了错误,在实际应用中就会导致实体识别出现错误、无法实现信息抽取或信息抽取出现错误。
发明内容
为解决上述的至少一个问题,本发明提供一种命名实体识别模型训练方法及设备、信息抽取方法及设备。
根据本发明构思的一方面,提供一种命名实体识别模型的训练方法。所述训练方法包括:获取具有半标注信息的训练文本集;对于所述训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;基于匹配结果,获得相应训练文本的有效命名实体标注;获得训练文本集中的各训练文本的向量表示;基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤可包括:基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索所述一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。
可选地,所述实体所属类型的一个或多个变体格式可从预设的正则查找库中获得。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还可包括:当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有所述百分数类型的一个或多个变体格式的数据;将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910402380.4/2.html,转载请声明来源钻瓜专利网。





