[发明专利]字符序列处理方法及设备在审

专利信息
申请号: 201810257040.2 申请日: 2018-03-27
公开(公告)号: CN108595416A 公开(公告)日: 2018-09-28
发明(设计)人: 陆晨昱;武拥珍;何永;李传丰;刘杰汉 申请(专利权)人: 义语智能科技(上海)有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/22
代理公司: 上海百一领御专利代理事务所(普通合伙) 31243 代理人: 王奎宇;甘章乖
地址: 201203 上海市浦东新*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词向量 向量 向量序列 连续字 连续向量 字词混合 字符序列 语义信息 拼接
【说明书】:

发明的目的是提供一种字符序列处理方法及设备,提出一种结合利用词向量和字向量的方案,提供所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致,所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应,可以实现依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接,得到字词混合的连续向量序列。在本发明中,因为同时使用了词向量和字向量,使得得到的字词混合的连续向量序列可以包含对应的词向量和字向量的语义信息。

技术领域

本发明涉及计算机领域,尤其涉及一种字符序列处理方法及设备。

背景技术

近几年,随着深度学习领域的飞速发展,越来越多的自然语言处理相关的任务也逐渐从传统的做法转向使用深度学习的方法,在效果上也有明显的提升。这些任务中比较典型的有:机器翻译,文本生成,情感分类,智能问答等。

在用深度学习的方法去做自然语言处理相关任务时,不同的任务我们会使用不同的模型,比如用Seq2Seq模型来做机器翻译,用CNN分类器来做情感分类等。但几乎所有任务都有共通的一步,那就是首先要将离散的字符序列转为一个连续向量的序列。

现有的自然语言处理任务中,在将离散的中文字符序列转为连续向量序列的任务中,有两种方案:

一是采用字向量,具体做法是将中文字符序列中的每个字通过事先训练好的字向量矩阵映射到一个连续向量值;

另一种方案是采用词向量,具体做法是先将中文字符序列做分词,再用事先训练好的词向量矩阵将每个词映射到一个连续向量值。

这两种方案都有各自的缺点。字向量的方案由于省略了分词的步骤,直接以字为单位做映射,因而缺失了词的语义信息;词向量的方案则因为在分词后可能产生一些词表外的词(oov),这些oov词因为无法在词向量矩阵中找到对应项,因而最终得到的向量值无法准确表征其语义。同时,由于分词这一步骤不可避免的存在一定的错误率,导致根据错误分词得到的词向量包含了错误的语义信息。

发明内容

本发明的一个目的是提供一种字符序列处理方法及设备,能够解决现有的字向量的方案缺失了词的语义信息,而现有的词向量的方最终得到的向量值在某些情况下无法准确表征其语义的问题。

根据本发明的一个方面,提供了一种字符序列处理方法,该方法包括:

获取字向量矩阵和词向量矩阵;

根据所述字向量矩阵,将待转换字符序列中的每个字依序转换为对应的字向量,根据依次转换得到的各字向量得到连续字向量序列;

将所述待转换字符序列依序进行分词,以得到对应的词语序列;

根据所述词向量矩阵,依序将所述词语序列中的每个词,转换为对应的词向量,根据转换得到的各词向量得到连续词向量序列,其中,所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致,所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应;

依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接,得到字词混合的连续向量序列。

进一步的,上述方法中,根据所述词向量矩阵,依序将所述词语序列中的每个词,转换为对应的词向量,根据转换得到的各词向量得到连续词向量序列,包括:

根据所述词向量矩阵,依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量。

进一步的,上述方法中,根据所述词向量矩阵,依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量中,

若某个词的字无法根据所述词向量矩阵映射得到该字所属的词对应的词向量,则将该字转换为预设的词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于义语智能科技(上海)有限公司,未经义语智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810257040.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top