[发明专利]具有用于文本注释的演变领域特异性词典特征的机器学习模型在审
申请号: | 201980033655.X | 申请日: | 2019-04-18 |
公开(公告)号: | CN112154509A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 凌媛;S·S·阿尔哈桑;O·F·法里;柳俊毅 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G16B50/10 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 孟杰雄 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 用于 文本 注释 演变 领域 特异性 词典 特征 机器 学习 模型 | ||
一种生成用于机器学习模型的嵌入的方法,包括:从第一文本数据提取字符嵌入和词语嵌入;根据领域知识数据集来生成领域知识嵌入;将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入;并且将所述组合嵌入提供到所述机器学习模型的层。
技术领域
本文所公开的各种示范性实施例总体上涉及具有用于自然语言处理的演变领域特异性词典特征的机器学习模型。
背景技术
机器学习模型可以形成以注释文本中的命名实体,例如,识别个体或地点的名称、日期、动物、疾病等。在生物医学设置中,障碍注释是许多生物医学自然语言处理应用中的特征。例如,从临床试验提取障碍名称能够对于患者剖析和其他下游应用是有帮助的,诸如将临床试验与适合的患者匹配。类似地,生物医学文章中的障碍注释可以帮助信息搜索引擎准确地索引它们,使得临床医师可以容易地找到相关文章来增强他们的知识。
发明内容
下面呈现了各种示范性实施例的概述。一些简化和省略可以在以下概述中做出,其旨在突出显示并且介绍各种示范性实施例的一些方面,但是不限制本发明的范围。示范性实施例的详细描述适于允许本领域普通技术人员制造并且使用将在稍后部分中跟随的发明构思。
各种实施例涉及一种生成用于机器学习模型的嵌入的方法,包括:从第一文本数据提取字符嵌入和词语嵌入;根据领域知识数据集来生成领域知识嵌入;将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入;并且将所述组合嵌入提供到所述机器学习模型的层。
描述了各种实施例,其中,所述领域知识数据集包括来自领域专家的反馈。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括对第二文本数据的命名实体识别标记。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
描述了各种实施例,其中,来自所述领域专家的所述反馈基于对所述机器学习模型的输出的正确性的确定。
描述了各种实施例,其中,所述领域知识数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
描述了各种实施例,其中,所述领域知识数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的命名实体识别。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的医学障碍注释。
描述了各种实施例,还包括:在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且在生成所述领域知识嵌入之后重新训练所述机器学习模型。
描述了各种实施例,还包括:基于在重新训练所述机器学习模型之前被添加到所述领域知识数据集的数据量来确定需要对所述机器学习模型的重新训练。
描述了各种实施例,其中,提取所述字符嵌入还包括:将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分;将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分;并且将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结(concatenating)以产生所述字符嵌入。
描述了各种实施例,其中,所述机器学习模型包括长短期记忆层和条件随机场层,并且还包括将所述领域知识嵌入提供到所述条件随机场层。
描述了各种实施例,还包括:在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且在生成所述领域知识嵌入之后重新训练所述机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033655.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用数字助理提供音频信息
- 下一篇:排热回收装置