[发明专利]利用堆叠式自动编码器进行的半监督式分类在审

专利信息
申请号: 201780054591.2 申请日: 2017-09-04
公开(公告)号: CN109690577A 公开(公告)日: 2019-04-26
发明(设计)人: R·加艾尼;S·S·阿尔哈桑;O·F·法里;K·李;V·达特拉;A·卡迪尔;柳俊毅;A·普拉卡什 申请(专利权)人: 皇家飞利浦有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 永新专利商标代理有限公司 72002 代理人: 李光颖;王英
地址: 荷兰艾*** 国省代码: 荷兰;NL
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动编码器 半监督式 堆叠式 残余连接 分类器 去噪 多层感知 句子分类 神经网络 无监督 分类 多层 遗忘 预测 应用 帮助 监督
【说明书】:

本文中描述的技术涉及用于预测和其他用途的堆叠式自动编码器和其他分类器的半监督式训练和应用。在各种实施例中,可以训练半监督式模型(108)以用于句子分类,并且可以将本文中提到的“残余堆叠式去噪自动编码器”(“RSDA”)(220)(其可以是无监督式的)与诸如分类神经网络(例如,多层感知机或“MLP”)的监督式分类器(218)进行组合。在各种实施例中,RSDA可以是堆叠式去噪自动编码器,其可以包括或者可以不包括一个或多个残余连接。如果存在残余连接,则残余连接可以帮助RSDA“记住”跨多层的遗忘信息。在各种实施例中,半监督式模型可以同时利用未标记的数据(用于RSDA)和标记的数据(用于分类器)来训练。

技术领域

本文中描述的各种实施例总体上涉及人工智能。更具体地但非排他性地,本文中公开的各种方法和装置涉及用于预测和其他用途的堆叠式自动编码器和其他分类器的半监督式训练和应用。

背景技术

基于深度学习的分类方法通常依赖于大量标记的数据。然而,采集标记的数据成本很高,这限制了研究人员将这些技术应用于许多自然语言处理任务。当前用于深度学习的半监督式方法主要使用未标记的数据来学习单词嵌入,然后将这些单词嵌入用于监督式分类,但是这些学习的向量并不直接受益于监督。半监督式学习旨在通过利用未标记的数据和标记的数据两者来提高监督式方法的性能。已经有一些有限的尝试使用深度学习进行半监督式句子分类,例如,使用卷积神经网络(“CNN”)和/或长短期记忆网络(“LSTM”)从未标记的训练数据中学习单词嵌入,然后利用这些嵌入进行监督式分类。虽然这些努力可以减轻句子分类任务中的某些错误,但是仍然存在两个主要缺陷。首先,到目前为止,这些方法仅关注单个句子分类的简单情况。其次,这种尝试主要涉及使用未标记的数据进行单词嵌入提取,然后在流水线环境中进行监督式分类。因此,它们无法从未标记的数据和标记的数据两者中联合地学习区别特征。

发明内容

本公开涉及用于预测和其他用途的堆叠式自动编码器和其他分类器/模型的半监督式训练和应用的方法和装置。例如,本文中描述的是用于句子分类的半监督式模型,其将本文中提到的“残余堆叠式去噪自动编码器”(“RSDA”)(其可以是无监督式的)与诸如分类神经网络(例如,多层感知机或“MLP”)的监督式分类器进行组合。在各种实施例中,RSDA可以是堆叠式去噪自动编码器,其可以包括或者可以不包括一个或多个残余连接。如果存在残余连接,则残余连接可以帮助RSDA“记住”跨多层的遗忘信息。在各种实施例中,半监督式模型可以同时利用未标记的数据(用于RSDA)和标记的数据(用于分类器)来训练。

一旦被训练,半监督式模型的一个或多个部分就可以用于各种分类任务,包括但不限于释义识别、(例如电影评论、音乐评论、书籍评论、产品评论等的)情感检测、主观性分类以及句子蕴涵。例如,在一些实施例中,在RSDA被训练之后,可以丢弃(或忽略)自动编码器的一个或多个解码器层。RSDA的一个或多个剩余编码器层可以用于生成例如句子嵌入的编码的嵌入,其可以作为输入被应用到分类器(例如,应用在分类神经网络上)以预测与上述分类任务中的一个或多个分类任务相关联的一个或多个标记。虽然本文中描述的技术可用于预测任何数量的领域中的标记,但是本文中描述的一些实施例涉及从自由形式的临床记录中预测诊断和/或其他结果。

总体上,在一个方面中,一种方法可以包括:在嵌入机器学习模型上应用第一多个句子作为未标记的训练数据以生成多个句子嵌入;在自动编码器机器学习模型上应用所述多个句子嵌入作为输入以训练所述自动编码器机器学习模型,其中,所述自动编码器机器学习模型包括一个或多个编码器层和一个或多个解码器层;在编码器机器学习模型的一个或多个实例上应用第二多个句子作为标记的训练数据以生成多个编码的嵌入,其中,所述第二多个句子与对应的多个标记相关联,并且其中,所述编码器机器学习模型包括所述自动编码器机器学习模型的所述一个或多个编码器层;在分类器上应用所述多个编码的嵌入作为标记的训练数据以生成输出;以及基于所述输出和所述多个标记来训练所述分类器以利用所述多个标记中的一个或多个标记对后续句子进行分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201780054591.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top