[发明专利]一种基于反馈自学习的动态字典库生成方法在审
申请号: | 202110321491.X | 申请日: | 2021-03-25 |
公开(公告)号: | CN113761215A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵忠华;李建广;余智华;王禄恒;陈欣洁;赵志云;冯凯;葛自发;杜漫;孙小宁;穆庆伟;万欣欣;申双成;李欣;孙立远;付培国;王晴;杜宛真 | 申请(专利权)人: | 中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/242;G06F40/295 |
代理公司: | 天津津中今知识产权代理有限公司 12252 | 代理人: | 韩学琴 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反馈 自学习 动态 字典 生成 方法 | ||
本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
技术领域
本发明涉及知识图谱、NLP、人工智能领域,具体来说,涉及一种基于反馈自学习的动态字典库生成方法。
背景技术
自然语言处理(NLP)是计算机科学领域和人工智能领域中的一个重要方向。实体识别、关系抽取又是自然语言处理方向的一个比较常见的应用,现有的实现技术也相对比较成熟。根据实体、关系数据结合行业特点,构建行业知识库,通过关系图谱展现方式显示知识库内容,让用户能够更直观、多维度的分析文件内容,随着对知识库的完善,自动优化行业模型,最终生成一条完善的行业知识库及行业模型。
但是现有技术中从基础字典库、自动标注模型训练、到标注数据反馈更新字典库的全流程为单独流程,并不能实现闭环
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于反馈自学习的动态字典库生成方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于反馈自学习的动态字典库生成方法,包括以下步骤:
S1、字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类;
S2、基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息;
S3、根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出等功能;
S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据;
S5、将S4步生成的预测数据回填到字典库,并确认自动标注数据是否正确,在此过程中,可以同步对字典库进行修改、调整,调整后的数据会自动进入模型训练过程。
进一步的,所述步骤S1字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类包括以下步骤:
S11、构建横向行业内的各种概念分类体系与纵向每种概念分类进行细化形成动态立体网状结构;
S12、针对每种概念分类需要设置全局唯一的分类编码;
S13、按照一定的逻辑规则进行编码,编码中可以识别出层次关系、父类对象等信息;
S14、字典库与模型自动标注的关联关系就是通过分类编码进行匹配。
进一步的,所述横向行业内的各种概念分类体系包括地点、人物、机构;
所述纵向每种概念分类进行细化包括分类型进行二级分类、三级分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心,未经中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321491.X/2.html,转载请声明来源钻瓜专利网。