[发明专利]文本分类模型的训练方法、文本分类方法及设备在审
申请号: | 202010979853.X | 申请日: | 2020-09-17 |
公开(公告)号: | CN112084337A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 毛冠文;唐亚腾;钟滨;徐进 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 设备 | ||
本申请公开了一种文本分类模型的训练方法、文本分类方法及设备,涉及人工智能领域。该方法包括:获取第一训练样本集,第一训练样本集中包含第一训练文本;基于第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量,预训练BERT模型;获取第二训练样本集,第二训练样本集中包含第二训练文本,且第二训练文本包含对应的分类标签;基于第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量,以分类标签为分类目标微调BERT模型,得到文本分类模型。拼音向量的引入,使得文本分类模型能够识别出同音字替换后的违规内容,提高了同音字替换场景下文本分类的分类准确性以及分类效率。
技术领域
本申请实施例涉及人工智能领域,特别涉及一种文本分类模型的训练方法、文本分类方法及设备。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。文本分类作为自然语言处理中一种重要应用,被广泛应用于违规内容检测。
为了识别出搜索场景下的违规搜索意图以及违规搜索结果,相关技术中通过挖掘可疑搜索数据,采用人工标注的方式标注出违规搜索数据,并汇总得到违规关键词,构建得到违规关键词字典,以便后续基于违规关键词字典识别违规内容。
然而,在中文搜索场景下,由于存在大量同音字,因此存在大量通过同音字替换以规避违规内容检测的情况。比如,为了规避违规内容检测,将“黄色视频”替换为“煌瑟视频”。对于上述同音字替换场景,相关技术中基于关键词进行违规内容识别的准确率较低。
发明内容
本申请实施例提供了一种文本分类模型的训练方法、文本分类方法及设备,可以提高同音字替换场景下违规内容的识别准确率。所述技术方案如下:
一方面,本申请实施例提供了一种文本分类模型的训练方法,所述方法包括:
获取第一训练样本集,所述第一训练样本集中包含第一训练文本;
基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量,预训练基于转换器的双向编码器(Bidirectional EncoderRepresentation from Transformers,BERT)模型,其中,拼音向量为文字对应拼音的向量化表示;
获取第二训练样本集,所述第二训练样本集中包含第二训练文本,且所述第二训练文本包含对应的分类标签;
基于所述第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量,以所述分类标签为分类目标微调所述BERT模型,得到所述文本分类模型,所述文本分类模型用于对输入文本进行标签分类。
另一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
获取目标分类文本;
获取所述目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量;
将所述目标字向量、所述目标拼音向量、所述目标位置向量以及所述目标句向量输入文本分类模型,得到所述文本分类模型输出的目标分类标签,所述文本分类模型为经过微调的BERT模型,且所述BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。
另一方面,本申请实施例提供了一种文本分类模型的训练装置,所述装置包括:
第一样本获取模块,用于获取第一训练样本集,所述第一训练样本集中包含第一训练文本;
预训练模块,用于基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量,预训练BERT模型,其中,拼音向量为文字对应拼音的向量化表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010979853.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多分区背光驱动电路及显示装置
- 下一篇:抗人CTLA4单克隆抗体及其应用