[发明专利]信息处理方法、装置及存储介质在审
申请号: | 202010059203.3 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111259148A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 徐泽宇;邓雄文 | 申请(专利权)人: | 北京松果电子有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 存储 介质 | ||
本公开是关于一种信息处理方法、装置及存储介质,包括:对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;基于第一预训练模型对所述第二语料数据所包含所述至少一个的词语进行处理,得到所述第二语料数据所对应的第一特征向量序列;基于第二预训练模型对所述第一语料数据所包含的字符进行处理,得到所述第一语料数据所对应的第二特征向量序列;基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量。本公开中,通过分别将语料数据基于字和基于词进行向量表征,融合了多元特征,能够使得分类时获取的训练样本更加丰富多样,以使训练得到的模型的准确率和泛化效果大幅提升。
技术领域
本公开涉及计算机通信领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
上个世纪九十年代以来,互联网快速发展,到现在进入大数据时代,互联网容纳了海量的信息和数据,包括文本、声音、图像、视频等。这里所说的文本是媒体新闻、科技、报告、电子邮件、技术专利、书籍等。与图像声音数据相比,文本占用的网络资源少,更容易上传和下载,这使得网络资源中大部分是以文本的形式出现。如何有效的组织和管理这些文本信息,并快速、准确、全面的从中找到用户所需要的文本信息是当前信息科学技术所面临的一大挑战。
早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法耗时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则,且在训练样本较少的情况下,会使得分类的准确性降低。
发明内容
本公开提供一种信息处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种信息处理方法,包括:
对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;
基于第一预训练模型对所述第二语料数据所包含的所述至少一个词语进行处理,得到所述第二语料数据所对应的第一特征向量序列;
基于第二预训练模型对所述第一语料数据所包含的字符进行处理,得到所述第一语料数据所对应的第二特征向量序列;
基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量。
可选的,所述第一特征向量序列和所述第二特征向量序列分别包含有至少一个特征向量;所述基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量,包括:
基于卷积神经网络模型对所述第一特征向量序列进行处理,从所述第一特征向量序列中提取第一特征向量;
基于长短期记忆模型对所述第一特征向量序列进行处理,从所述第一特征向量序列中提取第二特征向量;
基于所述第二预训练模型对所述第二特征向量序列进行处理,从所述第二特征向量序列中提取第三特征向量;
基于所述第一特征向量、所述第二特征向量和所述第三特征向量,通过拼接处理得到目标特征向量。
可选的,所述基于所述第一特征向量、所述第二特征向量和所述第三特征向量,通过拼接处理得到目标特征向量,包括:
在所述第一特征向量的末端拼接所述第二特征向量,并在拼接后的第二特征向量的末端拼接所述第三特征向量,得到拼接后的特征向量;
对所述拼接后的特征向量进行降维处理,得到所述目标特征向量。
可选的,所述第二语料数据所包含的词语具有词标识;所述基于第一预训练模型对所述第二语料数据进行处理,得到所述第二语料数据所对应的第一特征向量序列,包括:
确定所述第二语料数据包含的各所述词语的词标识;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京松果电子有限公司,未经北京松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010059203.3/2.html,转载请声明来源钻瓜专利网。