[发明专利]一种基于词语解释的文本增强的方法和系统在审
申请号: | 202110662528.5 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113591469A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 赵鹏阳;杨红飞 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/211 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词语 解释 文本 增强 方法 系统 | ||
本申请涉及一种基于词语解释的文本增强的方法和系统,其中,该方法包括:获取待测文本,并获取该待测文本中目标词的解释句;接着对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本中;最后,通过预处理后的文本对自然语言分类模型进行训练,解决了在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,提高了模型的准确率。
技术领域
本申请涉及计算机领域,特别是涉及一种基于词语解释的文本增强的方法和系统。
背景技术
在人工智能的应用场景下,基于机器学习的自然语言处理任务需要大量的语料来训练模型。因此,自然语言处理模型的效果好坏,有相当一部分依赖于语料内容,当语料不足时,就会出现模型的准确率和召回率不够理想的问题;或者当语料数据不平衡,如文本分类中某几个标签的数据量远大于其他标签的数据量时,会造成模型过于关注数据量大的标签数据,使得样本不足的标签的准确率、召回率较低。因此,需要对文本进行增强,也就是从已有语料生成更多的语料,将语料进行扩充,现有常见的文本数据增强方法有:回译、非核心词替换和基于生成语言模型的文本增强等。
然而,在相关技术中,要求文本中不能涉及新词等相关语料不足的词,且都需要通过大量语料的训练才能得到比较准确的模型。在词语的相关语料不足的情况下,模型很难得到较好的效果。
目前针对相关技术中在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于词语解释的文本增强的方法和系统,以至少解决相关技术中在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题。
第一方面,本申请实施例提供了一种基于词语解释的文本增强的方法,所述方法包括:
获取待测文本,并获取所述待测文本中目标词的解释句;
对所述待测文本进行预处理,对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签,对不以所述目标词为标签的文本分类任务,将所述目标词的解释句加入所述文本;
通过预处理后的文本对自然语言分类模型进行训练。
在其中一些实施例中,所述对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签包括:
通过average pooling将所述目标词的解释句设置为标签,并将所述目标词的解释句转换为与词向量相同维度的标签向量。
在其中一些实施例中,所述将所述目标词的解释句转换为与词向量相同维度的标签向量包括:
对所述目标词的解释句进行分词处理,并获取各个分词对应的BERT预训练的词向量;
计算所述词向量在同一维度的平均值,得到与所述词向量相同维度的标签向量。
在其中一些实施例中,所述获取所述待测文本中目标词的解释句包括:
获取领域专家和语言专家对所述目标词的解释句,或者查找专业知识库,得到所述目标词的解释句。
第二方面,本申请实施例提供了一种基于词语解释的文本增强的系统,所述系统包括:
获取模块,用于获取待测文本,并获取所述待测文本中目标词的解释句;
预处理模块,用于对所述待测文本进行预处理,对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签,对不以所述目标词为标签的文本分类任务,将所述目标词的解释句加入所述文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110662528.5/2.html,转载请声明来源钻瓜专利网。