[发明专利]分词方法、装置及设备有效

申请号：	201910354886.2	申请日：	2019-04-29
公开（公告）号：	CN110334338B	公开（公告）日：	2023-09-19
发明（设计）人：	孔德威	申请（专利权）人：	北京小米移动软件有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	朱颖;刘芳
地址：	100085 北京市海淀区清河***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种分词方法、装置及设备。包括：获取目标语句，目标语句包括N个目标字符，N为大于1的正整数；根据各个目标字符之前的t‑1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵；分别获取各个目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个目标字符、各个记忆矩阵、以及各个第二属性向量，分别确定各个目标字符的第三属性向量；根据各个第三属性向量，对目标语句进行分词。从而提高了分词的准确率。

技术领域

本公开涉及自然语言处理领域，尤其涉及一种分词方法、装置及设备。

背景技术

自然语言处理是计算机学科人工智能的一个重要研究方向，它研究如何使得人与计算机之间能够使用自然语言进行有效通信，是一门融语言学、计算机科学、数学于一体的学科。中文分词是自然语言处理的基础任务，是许多上游任务比如情感分类、机器翻译等的预处理步骤。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

近年来随着神经网络的兴起，中文分词引入了深度学习模型，循环神经网络(Recurrent NeuralNetwork，RNN)、卷积神经网络(Convolution Neural Network，CNN)、递归神经网络(Recursive Neural Network，RNN)、长短时记忆(Long-short Term Memory，LSTM)等被应用到中文分词的各个任务中。

发明内容

本公开实施例提供了一种分词方法、装置及设备。所述技术方案如下：

根据本公开实施例的第一方面，提供一种分词方法，该方法包括：获取目标语句，目标语句包括N个目标字符，N为大于1的正整数；根据各个目标字符之前的t-1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵，t为大于或等于2的整数；分别获取各个目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个目标字符、各个记忆矩阵、以及各个第二属性向量，分别确定各个目标字符的第三属性向量；根据各个第三属性向量，对目标语句进行分词。

根据本公开实施例的第二方面，提供了一种分词装置，该装置包括：

第一获取模块，被配置为获取目标语句，目标语句包括N个目标字符，N为大于1的正整数。

第二获取模块，被配置为根据各个目标字符之前的t-1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵，t为大于或等于2的整数。

第三获取模块，被配置为分别获取各个目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子。

确定模块，被配置为根据各个目标字符、各个记忆矩阵、以及各个第二属性向量，分别确定各个目标字符的第三属性向量。

分词模块，被配置为根据各个第三属性向量，对目标语句进行分词。

根据本公开实施例的第三方面，提供了一种终端设备，该终端设备包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，处理器被配置为：

获取目标语句，目标语句包括N个目标字符，N为大于1的正整数。

根据各个目标字符之前的t-1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵，t为大于或等于2的整数。