[发明专利]文本类别的确定方法、装置、设备及存储介质在审
| 申请号: | 202211485681.6 | 申请日: | 2022-11-24 |
| 公开(公告)号: | CN115757787A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 郭徽;鲁效平;孟祥秀;段玉涛 | 申请(专利权)人: | 卡奥斯工业智能研究院(青岛)有限公司;海尔数字科技(青岛)有限公司;海尔卡奥斯物联科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F18/2411;G06F18/214 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 侯军洋 |
| 地址: | 266000 山东省青岛市中*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 类别 确定 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本类别的确定方法、装置、设备及存储介质,涉及互联网技术领域,可以提高确定文本类别的效率和准确率。该方法包括:对目标文本进行预处理,得到目标文本中的N个关键词及N个关键词对应的位置信息;目标文本为工业互联网场景中的待分类文本;N为正整数;调用预设语义表示模型对N个关键词及N个关键词对应的位置信息进行处理,确定出N个关键词对应的N个向量;调用预设图神经网络模型对N个关键词对应的N个向量进行处理,确定出各N个关键词所属的文本类别;其中,预设图神经网络模型根据样本文本中的M个样本关键词对应的M个样本向量和M个样本关键词所属的文本类别得到;M为正整数。
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本类别的确定方法、装置、设备及存储介质。
背景技术
目前,在工业互联网场景中,可以通过知识库或知识图谱等来描述工业互联网场景中一些标准知识,从而可以通过人机交互(比如,知识问答)等形式向工业互联网从业者或其他需求者提供知识查询功能。在构建知识库或知识图谱时,一般需要先获取大量的文本信息(比如,可以是一些关键词),然后对这些文本信息所属的文本类别进行人工标注,打上分类标签,之后可以基于打上分类标签的文本信息构建知识库或知识图谱。
然而,现有确定文本信息所属的文本类别的方式,不仅效率低,影响了构建知识库或知识图谱的速度,而且受人为主观因素影响,确定分类结果的准确率也不高。
发明内容
本申请提供一种文本类别的确定方法、装置、设备及存储介质,可以提高确定文本类别的效率和准确率。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种文本类别的确定方法,包括:对目标文本进行预处理,得到目标文本中的N个关键词及N个关键词对应的位置信息;目标文本为工业互联网场景中的待分类文本;N为正整数;调用预设语义表示模型对N个关键词及N个关键词对应的位置信息进行处理,确定出N个关键词对应的N个向量;调用预设图神经网络模型对N个关键词对应的N个向量进行处理,确定出各N个关键词所属的文本类别;其中,预设图神经网络模型根据样本文本中的M个样本关键词对应的M个样本向量和M个样本关键词所属的文本类别得到;M为正整数。
本申请提供的技术方案中,在获取到工业互联网场景中的待分类文本(也即是本申请中的目标文本)后,可以先通过预处理得到其中的N个关键词及对应的位置信息,然后可以通过预设语义表示模型对N个关键词及其对应的位置信息进行处理,分别确定出N个关键词对应的N个向量。之后,可以将N个关键词对应的N个向量输入事先训练好的预设图神经网络模型。由于该预设图神经网络模型是根据样本文本中的M个样本关键词对应的M个样本向量和M个样本关键词所属的文本类别得到的,那么,将N个关键词对应的N个向量输入其中,则可以得到各N个关键词所属的文本类别。可以看出,本申请中,通过将工业互联网场景中的待分类文本中的关键词以向量的形式进行表示,可以基于事先根据样本关键词的对应的样本向量训练得到的预设图神经网络模型自动识别出待分类文本中的关键词所属的文本类别。所以,相比现有的确定文本类别的方式,本申请可以提高确定文本类别的效率,从而可以提高构建工业互联网场景中知识库或知识图谱的速度。并且,由于是根据预设图神经网络模型自动识别出文本类别,所以识别结果不受人为主观因素影响,可以提高确定出的文本类别的准确率。
可选的,在一种可能的设计方式中,上述“调用预设图神经网络模型对N个关键词对应的N个向量进行处理”之前,还可以包括:
基于M个样本关键词对应的M个样本向量的向量参数,将M个样本关键词划分为X个样本集合;一个样本集合对应一种样本向量,同一种样本向量的向量参数相同,且同一样本集合中的样本关键词所属的文本类别相同;X为正整数;
根据预设关系图谱确定X个样本集合对应的目标关系图谱;预设关系图谱用于表征候选文本类别之间的关联关系;目标关系图谱中包括X个节点,一个节点对应一个样本集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卡奥斯工业智能研究院(青岛)有限公司;海尔数字科技(青岛)有限公司;海尔卡奥斯物联科技有限公司,未经卡奥斯工业智能研究院(青岛)有限公司;海尔数字科技(青岛)有限公司;海尔卡奥斯物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211485681.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盲孔夹紧机构
- 下一篇:视频处理方法、装置、电子设备及介质





