[发明专利]一种基于反馈自学习的动态字典库生成方法在审
申请号: | 202110321491.X | 申请日: | 2021-03-25 |
公开(公告)号: | CN113761215A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵忠华;李建广;余智华;王禄恒;陈欣洁;赵志云;冯凯;葛自发;杜漫;孙小宁;穆庆伟;万欣欣;申双成;李欣;孙立远;付培国;王晴;杜宛真 | 申请(专利权)人: | 中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/242;G06F40/295 |
代理公司: | 天津津中今知识产权代理有限公司 12252 | 代理人: | 韩学琴 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反馈 自学习 动态 字典 生成 方法 | ||
1.一种基于反馈自学习的动态字典库生成方法,其特征在于,包括以下步骤:
S1、字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类;
S2、基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息;
S3、根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出等功能;
S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据;
S5、将S4步生成的预测数据回填到字典库,并确认自动标注数据是否正确,在此过程中,可以同步对字典库进行修改、调整,调整后的数据会自动进入模型训练过程。
2.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S1字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类包括以下步骤:
S11、构建横向行业内的各种概念分类体系与纵向每种概念分类进行细化形成动态立体网状结构;
S12、针对每种概念分类需要设置全局唯一的分类编码;
S13、按照一定的逻辑规则进行编码,编码中可以识别出层次关系、父类对象等信息;
S14、字典库与模型自动标注的关联关系就是通过分类编码进行匹配。
3.根据权利要求2所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述横向行业内的各种概念分类体系包括地点、人物、机构;
所述纵向每种概念分类进行细化包括分类型进行二级分类、三级分类。
4.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S2基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息中,关系的定义逻辑采用主体、客体、关系三种对象表示,其中,其中主体、客体即为S1步骤中的实体分类,关系是用来表示主、客体之间的描述,关系主要包括三方面内容:关系编码、关系名称、关系方向。
5.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S3根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出包括以下步骤:
步骤S31、根据已有的模型识别语料数据中的实体,并且高亮显示实体内容;
步骤S32、根据实体识别的情况,进行人工调整;
步骤S33、选择主体、客体进行拖动,构建关系,拖动完成后根据主客体的类型自动识别与其最相近的实体关系;
步骤S34、根据标注的数据生成模型训练所需要的语料数据,包括实体识别模型和关系识别模型。
步骤S35、将以上步骤标注的实体语料、关系语料分别生成模型可用的数据源。
6.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S4基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据包括以下步骤:
S41、基于S3步骤生成的数据源信息,分别训练实体识别模型和关系抽取模型。
S42、基于TensorFlow框架,BERT模型中实体识别、关系抽取预训练模型进行实体识别模型、关系抽取模型训练;
S43、训练过程中可根据模型评价结果,对模型参数进行调整来逐步优化模型;
S44、最终通过模型对语料数据进行实体识别、关系抽取,生成预测数据。
7.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S5中生成的字典库内容主要有两种:实体内容、实体关系内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心,未经中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321491.X/1.html,转载请声明来源钻瓜专利网。