[发明专利]文本分类方法、语言模型训练方法、装置及设备有效
申请号: | 202010791230.X | 申请日: | 2020-08-07 |
公开(公告)号: | CN111930942B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 勒一凡;黄展鹏;赵瑞辉;赵博 | 申请(专利权)人: | 腾讯云计算(长沙)有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/205;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 410000 湖南省长沙市岳麓区天顶街道环*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 语言 模型 训练 装置 设备 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取输入文本;
获取所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量,所述关系表征向量用于表征语义关系;
按照所述输入文本的词序列,将所述关系表征向量与所述词序列进行对齐;
对于所述词序列中的每个词,将所述词在所述关系表征向量中对应的向量划分成多个块;
对所述块中填充预设数值,得到填充后的块;
在各个所述填充后的块内做外积运算,得到各个所述块对应的向量;
拼接各个所述块对应的向量,得到不同维度特征之间的关联特征向量,所述关联特征向量用于表征所述关系表征向量的不同维度特征之间的语义关联性;
基于所述关联特征向量,确定所述输入文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量,包括:
对所述输入文本进行分词处理,得到所述输入文本的词序列;
获取所述词序列中各个词的词向量;
根据所述各个词的词向量,获取所述输入文本在多个标注步长下的语义特征;
基于多头自注意力机制,根据多个所述语义特征生成所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各个词的词向量,获取所述输入文本在多个标注步长下的语义特征,包括:
根据所述各个词的词向量,获取所述输入文本在标注步长为1情况下的一元语义特征;
根据所述各个词的词向量,获取所述输入文本在标注步长为2情况下的二元语义特征;
根据所述各个词的词向量,获取所述输入文本在标注步长为3情况下的三元语义特征。
4.根据权利要求2所述的方法,其特征在于,所述基于多头自注意力机制,根据多个所述语义特征生成所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量,包括:
基于自注意力机制,获取多个所述语义特征分别对应的上下文表示;
基于多头注意力机制,根据多个所述上下文表示,生成所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量。
5.根据权利要求1所述的方法,其特征在于,所述拼接各个所述块,得到不同维度特征之间的关联特征向量之后,还包括:
将所述关联特征向量的维度进行缩减处理,得到处理后的关联特征向量;
所述基于所述关联特征向量,确定所述输入文本的分类结果,包括:
基于所述处理后的关联特征向量,确定所述输入文本的分类结果。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述分类结果由语言模型输出;其中,所述语言模型包括:
词向量提取单元,用于获取所述输入文本的词序列中各个词的词向量;
关系表征向量提取单元,用于根据所述各个词的词向量,获取所述输入文本在多个标注步长下的语义特征;基于多头自注意力机制,根据多个所述语义特征生成所述输入文本的字与字之间、词与词之间、字与词之间的关系表征向量;
关联特征向量提取单元,用于按照所述输入文本的词序列,将所述关系表征向量与所述词序列进行对齐;对于所述词序列中的每个词,将所述词在所述关系表征向量中对应的向量划分成多个块;对所述块中填充预设数值,得到填充后的块;在各个所述填充后的块内做外积运算,得到各个所述块对应的向量;拼接各个所述块对应的向量,得到不同维度特征之间的所述关联特征向量;
分类输出单元,用于基于所述关联特征向量,确定所述输入文本的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(长沙)有限责任公司,未经腾讯云计算(长沙)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791230.X/1.html,转载请声明来源钻瓜专利网。