[发明专利]文本处理方法、装置、电子设备和计算机可读存储介质在审
申请号: | 201910822834.3 | 申请日: | 2019-09-02 |
公开(公告)号: | CN112528645A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 李思;李明正;王蓬辉;张斯曼;李安新;郭心语 | 申请(专利权)人: | 株式会社NTT都科摩 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本公开提供了一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。所述文本处理方法,包括:获取输入文本;对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。根据本公开的文本处理方法,融合深度学习和统计学习的处理结果,使用少量特定领域的训练语料实现对于领域的自适应,并且获得优于深度学习和统计学习的处理性能。
技术领域
本申请涉及自然语言处理领域,并且具体涉及一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。
背景技术
自然语言处理(NLP)是人工智能技术重要的应用领域之一。自然语言处理能够让计算机像人一样能够阅读文字,理解文字背后的含义,从而完成机器翻译、自动问答、信息检索、情感分析、自动文本摘要等具体应用。让计算机懂得人类的文本,就必须要让计算机准确把握每一个词的含义。因而在自然语言处理中,分词技术是非常基础的模块。
现有的分词方法主要包括基于统计学习的分词方法和基于深度学习的分词方法。基于统计学习分词方法包括例如基于隐式马尔可夫模型(Hiden Markov Model,HMM)、N元文法模型(N-gram)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等的分词方法。基于统计学习分词方法通常具有较强的泛化性,但是其分词性能有限(例如,F1分数较低)。基于深度学习的分词方法包括例如利用卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆(LSTM)神经网络等的分词方法。基于深度学习的分词方法在有足够的训练语料数据时,其分词性能好于基于统计学习的分词方法,但是当训练语料数据不足时,其分词性能将迅速下降。因此,希望能够融合不同分词方法的优点,并且实现对于训练语料较少的特定领域的自适应,从而获得高于基于统计学习的分词方法和基于深度学习的分词方法的分词性能。
发明内容
鉴于上述问题,本公开提供了一种基于神经网络的文本处理方法、装置、电子设备和计算机可读存储介质。
根据本公开的一个方面,提供了一种基于神经网络的文本处理装置,包括:接收单元,用于获取输入文本;第一处理单元,用于对所述输入文本进行第一文本处理,获取所述输入文本的第一预处理结果;第二处理单元,用于对所述输入文本进行第二文本处理,获取所述输入文本的第二预处理结果;以及处理结果生成单元,用于基于所述第一预处理结果和所述第二预处理结果,生成所述输入文本的处理结果,其中,所述第一文本处理是基于深度学习的分类处理,并且所述第二文本处理是基于统计学习的分类处理。
此外,根据本公开的一个方面的文本处理装置,其中,所述处理结果输出单元包括:判断单元,用于判断所述第一预处理结果和所述第二预处理结果是否相同;第三处理单元,用于在所述第一预处理结果和所述第二预处理结果相同的情况下,以相同的所述第一预处理结果和所述第二预处理结果作为所述处理结果;以及在所述第一预处理结果和所述第二预处理结果不同的情况下,对不同的所述第一预处理结果和所述第二预处理结果进行第三文本处理,生成所述输入文本的处理结果,其中,所述第三文本处理是基于支持向量机的分类处理。
此外,根据本公开的一个方面的文本处理装置,还包括:训练单元,用于利用第一语料库训练进行所述第一文本处理的第一处理单元以及进行所述第二文本处理的第二处理单元;利用第二语料库训练进行所述第三文本处理的第三处理单元,其中,所述第一语料库包含的语料数多于所述第二语料库包含的语料数。
此外,根据本公开的一个方面的文本处理装置,还包括:输出单元,用于基于所述处理结果生成所述输入文本对应的输出文本,其中,所述第一预处理结果、所述第二预处理结果和所述第三处理结果分别指示所述输入文本中各个字的位置标签,所述输出文本为所述输入文本对应的分词文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910822834.3/2.html,转载请声明来源钻瓜专利网。