[发明专利]用于文本分析的模型训练方法、文本分类方法和装置有效
申请号: | 201910176632.6 | 申请日: | 2019-03-08 |
公开(公告)号: | CN110046248B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 蒋亮;张家兴;温祖杰;梁忠平 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 分析 模型 训练 方法 分类 装置 | ||
本说明书实施例提供一种用于文本分析的模型训练方法、文本分类方法和装置,方法包括:首先利用第一双向转换器模型,针对第一训练语句中的每个词,基于该词的初始词向量,以及该词的上文信息,得到该词对应的正向向量;接着利用第一双向转换器模型,针对第一训练语句中的每个词,基于该词的初始词向量,以及该词的下文信息,得到该词对应的反向向量;然后根据第一训练语句中的每个词的位置,将该位置的前一个词的正向向量和该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;再利用第一语言模型,针对每个位置对应的目标词向量,对第一双向转换器模型和第一语言模型进行训练,从而既运行速度快,又能保证模型的鲁棒性。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及用于文本分析的模型训练方法、文本分类方法和装置。
背景技术
转换器(Transformer)模型是Google的Ashish Vaswani等人在2017年提出的一种神经网络模型,可用于序列数据的深度建模,可替代长短记忆网络(long short termmemory,LSTM)模型,具有运行速度快的特点。
Transformer模型只从单向处理序列,在处理序列中每个位置时都只考虑前面所有位置的信息,没有考虑后面位置的信息,这极大地限制了模型的鲁棒性。
因此,希望能有改进的方案,在对序列数据进行深度建模时,能够利用Transformer模型运行速度快的特点,并且保证模型的鲁棒性。
发明内容
本说明书一个或多个实施例描述了一种用于文本分析的模型训练方法、文本分类方法和装置,在对序列数据进行深度建模时,能够利用Transformer模型运行速度快的特点,并且保证模型的鲁棒性。
第一方面,提供了一种用于文本分析的模型训练方法,方法包括:
利用第一双向转换器模型,针对第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的上文信息,得到该词对应的正向向量;
利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,得到该词对应的反向向量;
根据所述第一训练语句中的每个词的位置,将该位置的前一个词的正向向量和该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
利用第一语言模型,针对所述第一训练语句中每个位置对应的目标词向量,预测得到该位置对应的词的第一概率;
通过使与所述第一概率相关的第一损失函数极小化,对所述第一双向转换器模型和所述第一语言模型进行训练,得到训练后的第二双向转换器模型和第二语言模型。
在一种可能的实施方式中,所述利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,得到该词对应的反向向量,包括:
利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,使用自注意力机制,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,从不同角度抽取多个重要信息;
将所述多个重要信息中每个重要信息对应的向量进行拼接,得到该词对应的反向向量。
第二方面,提供了一种用于文本分析的模型训练方法,方法包括:
利用如第一方面所述的方法训练后的所述第二双向转换器模型,针对第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的上文信息,得到该词对应的正向向量;
利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,得到该词对应的反向向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910176632.6/2.html,转载请声明来源钻瓜专利网。