[发明专利]基于人工智能的分词模型的修正方法、装置、设备和介质有效

申请号：	201710449945.5	申请日：	2017-06-14
公开（公告）号：	CN107273357B	公开（公告）日：	2020-11-10
发明（设计）人：	郑利群;詹金波;肖求根;付志宏;何径舟;周古月	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06N3/02
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能分词模型修正方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种基于人工智能的分词模型的修正方法、装置、设备和介质。所述方法包括：获取分词模型的模型参数，同时，通过神经网络对第一训练语料的设定泛化特征对应的特征向量进行训练得到设定泛化特征的模型参数；根据分词模型的模型参数和设定泛化特征的模型参数对第一训练语料进行分词处理，得到分词结果；根据设定规则比较分词结果与第一训练语料，依据比较结果修正分词模型的模型参数和神经网络参数。本发明实施例的技术方案实现了简便和快速地扩展已有分词模型的泛化能力，准确地获取具有泛化性的分词结果，同时，还是可以依据该泛化性的分词结果对已有分词模型进行修正，增加已有分词模型的模型参数的准确度。

技术领域

本发明实施例涉及分词处理技术领域，尤其涉及一种基于人工智能的分词模型的修正方法、装置、设备和介质。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

现有的分词模型一般为基于统计的分词模型或基于词典的分词模型，这两种分词模型的泛化能力一般较差，即便是具有一定泛化能力的基于统计的有监督分词模型，由于人工标注语料较少，因此该分词模型较小，容易导致泛化错误。现有技术中一般通过使用泛化特征向量重新训练分词模型的方法获得具有一定泛化能力的分词模型。

重新训练分词模型不但费时费力，而且难以保证分词的质量。

发明内容

有鉴于此，本发明实施例提供了一种基于人工智能的分词模型的修正方法、装置、设备和介质，以解决现有技术中增加分词模型泛化能力的方法费时费力，且难以保证分词质量的技术缺陷。

在第一方面，本发明实施例提供了一种基于人工智能的分词模型的修正方法，包括：

获取分词模型的模型参数，同时，通过神经网络对第一训练语料的设定泛化特征对应的特征向量进行训练得到所述设定泛化特征的模型参数；

根据所述分词模型的模型参数和所述设定泛化特征的模型参数对所述第一训练语料进行分词处理，得到分词结果；

根据设定规则比较所述分词结果与所述第一训练语料，依据比较结果修正所述分词模型的模型参数和所述神经网络参数。

在第二方面，本发明实施例提供了一种基于人工智能的分词模型的修正装置，包括：

模型参数获取模块，用于获取分词模型的模型参数，同时，通过神经网络对第一训练语料的设定泛化特征对应的特征向量进行训练得到所述设定泛化特征的模型参数；

分词处理模块，用于根据所述分词模型的模型参数和所述设定泛化特征的模型参数对所述第一训练语料进行分词处理，得到分词结果；