[发明专利]指令生成方法、系统、设备和介质在审
| 申请号: | 201911089232.8 | 申请日: | 2019-11-08 |
| 公开(公告)号: | CN110909541A | 公开(公告)日: | 2020-03-24 |
| 发明(设计)人: | 郑永升;石磊;曹越 | 申请(专利权)人: | 杭州依图医疗技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G10L15/22;G10L15/06;G10L15/183 |
| 代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
| 地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 指令 生成 方法 系统 设备 介质 | ||
本发明涉及自然语言处理和人工智能技术领域,特别涉及指令生成方法、系统、设备和介质。本发明的方法包括:根据输入信息中的字的上下文信息将字转化为表征向量;将表征向量转化为词槽标签和意图;基于词槽标签和意图,生成指令。与静态的“字到向量”的映射关系相比,相同的字根据该字的上下文信息可以被转化为不同的表征向量,从而提供更加丰富的信息,并且可以再将该表征向量转化为更为准确的词槽标签和意图,从而提高指令生成系统整体的性能。
技术领域
本发明涉及自然语言处理和人工智能技术领域,特别涉及指令生成方法、系统、设备和介质。
背景技术
现有的指令生成系统在文字表征阶段,使用一组静态的“字到向量”的映射关系,将输入信息中的字转化为表征向量。该组映射关系是通过随机初始化的或由无监督训练所得到的词嵌入(word embedding)模型而得到的。在通过由无监督训练所得到的词嵌入模型而得到的映射关系中,语义相近的字会被映射到相近的表征向量。
现有方案中所使用的映射关系,即使是通过由无监督训练所得到的词嵌入模型而得到的映射关系,也只能表达字的语义,而不能表达字在输入信息中的上下文信息。也就是说,无论在什么样的输入信息中,相同的字总是被映射到相同的表征向量。这会带来以下两个问题:
第一,不同上下文中相同的字可能表达不同的信息,例如对于“手”这个字,其可能表达的是医疗操作,诸如“手术”,也可能表达的是部位,诸如“手部”,如果对这些字使用相同的表征则会造成混淆。因此,在不同的上下文中将相同的字映射到相同的表征向量,会使得后续模型难以区分这些词汇,从而影响模型性能。
第二,模型的训练需要大量样本,样本量较少的场景可能使得模型的性能不足。由于静态的映射关系对输入信息所建立的表征失去了上下文信息,因此这就在一定程度上要求后续模型来学习对上下文进行建模,而这样的建模需要大量的样本,从而使得在训练样本较少的场景中,模型性能会受到较大的影响。
发明内容
本发明的目的在于提供指令生成方法、系统、设备和介质,根据输入信息中的字的上下文信息将字转化为表征向量,并且将表征向量转化为词槽标签和意图。与静态的“字到向量”的映射关系相比,相同的字根据该字的上下文信息可以被转化为不同的表征向量,从而提供更加丰富的信息,并且可以再将该表征向量转化为更为准确的词槽标签和意图,从而提高指令生成系统整体的性能。
本发明的实施方式公开了一种指令生成方法,包括:
根据输入信息中的字的上下文信息将所述字转化为表征向量;
将所述表征向量转化为词槽标签和意图;
基于所述词槽标签和所述意图,生成指令。
可选地,通过预训练语言模型来根据所述输入信息中的所述字的所述上下文信息将所述字转化为所述表征向量。
可选地,所述预训练语言模型包括以下中的一个:ELMo模型、BERT模型、XLNet模型和GPT模型。
可选地,所述预训练语言模型的训练样本为未标注的训练样本。
可选地,通过语言理解模型来将所述表征向量转化为所述词槽标签和所述意图。
本发明的实施方式公开了一种指令生成系统,包括:
第一转化单元,用于根据输入信息中的字的上下文信息将所述字转化为表征向量;
第二转化单元,用于将所述表征向量转化为词槽标签和意图;
生成单元,用于基于所述词槽标签和所述意图,生成指令。
可选地,所述第一转化单元包括预训练语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州依图医疗技术有限公司,未经杭州依图医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911089232.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种破坏逆温层治理大气污染的方法
- 下一篇:一种可拆卸防冷桥的金属面夹芯板





