[发明专利]验证和校正用于文本分类的训练数据有效
| 申请号: | 201910675375.0 | 申请日: | 2019-07-25 |
| 公开(公告)号: | CN110781684B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 增田聪;宫本晃太郎;岩间太;竹内广宜 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 验证 校正 用于 文本 分类 训练 数据 | ||
本发明的实施例涉及验证和校正用于文本分类的训练数据。具体地,用于文本分类的方法和系统包括:标识根据类别的层级图集中的第一类别分类的文本样本,与第一类别相比该文本样本根据相似性度量更类似于类别的层级图集中的第二类别。从标识的文本样本删除与第二类别相关联的词。向标识的文本样本添加与第一类别相关联的词。使用文本样本作为训练数据来训练文本分类模型。使用在处理器设备上实现的经训练的文本分类模型对输入文本执行文本分类。
技术领域
本发明一般涉及文本分类,并且更具体地涉及用于在训练文本分类系统中使用的训练数据的自动生成。
背景技术
具有监督式机器学习的文本分类系统被用来对输入信息自动进行解释和分类,从而使用自然语言提供对大型知识库的快速访问。文本分类系统接受输入文本并标识文本所属的一个或多个类别,使得例如可以对自然语言查询提供响应。
这种分类系统需要训练数据来充分训练其分类模型。然而,这种训练数据通常由提供给定文本样本的替代版本的人类操作员手动生成,这是一个耗时且可能昂贵的过程。此外,由于与其他类别中的样本过于相似,手动生成的训练数据可能会偏移而跨越分类边界,从而导致经训练的系统将数据分类到错误类别中。
发明内容
一种用于文本分类的方法,包括:标识根据类别的层级图集中的第一类别分类的文本样本,与第一类别相比该文本样本根据相似性度量更类似于类别的层级图集中的第二类别。从标识的文本样本删除与第二类别相关联的词(word)。向标识的文本样本添加与第一类别相关联的词。使用文本样本作为训练数据来训练文本分类模型。使用在处理器设备上实现的经训练的文本分类模型对输入文本执行文本分类。
一种文本分类系统,包括:验证和校正模块,验证和校正模块被配置为标识根据类别的层级图集中的第一类别分类的文本样本,与第一类别相比该文本样本根据相似性度量更类似于类别的层级图集中的第二类别,从标识的文本样本中删除与第二类别相关联的词,并且向标识的文本样本添加与第一类别相关联的词。训练模块被配置为使用文本样本作为训练数据来训练文本分类模型。分类模块被配置为使用在处理器设备上实现的经训练的文本分类模型对输入文本执行文本分类。
从结合附图阅读的其说明性实施例的以下详细描述中,这些和其他特征以及优点将变得显而易见。
附图说明
以下描述将参考以下附图提供优选实施例的细节,其中:
图1是根据本发明实施例的包括类别的层级组织的不同分类层级结构的图,该图示出了通过训练数据的手动生成而可能会无意中跨界(bridged)的类别之间的相似性;
图2是根据本发明实施例的用于训练数据验证和校正的方法的框图/流程图,该方法标识与其他类别太相似的训练数据的实例,然后修改实例以使它们更接近于它们自己的预期类别;
图3是根据本发明实施例的方法的框图/流程图,该方法用于通过删除与另一类别相关联的词并添加与预期类别相关联的词来校正与其他类别太相似的训练数据文本样本;
图4是根据本发明实施例的用于使用训练数据来执行文本分类的方法的框图/流程图,该训练数据是在执行训练之前通过验证和校正训练数据而手动导出的,用以确保经训练的分类模型正确地分类输入文本;
图5是根据本发明实施例的用于使用训练数据来执行文本分类系统的框图,该训练数据是在执行训练之前验证和校正训练数据而手动导出的,用以确保经训练的分类模型正确地分类输入文本;以及
图6是根据本发明实施例的示例性处理系统的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910675375.0/2.html,转载请声明来源钻瓜专利网。





