[发明专利]词法分析模型的训练方法、装置、电子设备、存储介质在审
申请号: | 201811559376.0 | 申请日: | 2018-12-18 |
公开(公告)号: | CN111339760A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词法 分析 模型 训练 方法 装置 电子设备 存储 介质 | ||
本发明提供一种中文词法分析模型的训练方法、装置、电子设备、存储介质,中文词法分析模型的训练方法包括:提供训练语料集;对所述训练语料集进行标注;对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层;至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文词法分析模型进行训练。本发明可以通过中文词法分析模型的训练,利用经训练的中文词法分析模型进行中文词法分析,并可应用于分词、词性标注、槽位预测及用户意图预测中,以减少人力成本。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种中文词法分析模型的训 练方法、预测方法、训练装置、电子设备、存储介质。
背景技术
随着大数据和互联网技术的发展,人工智能产品越来越多地进入普通人 的生活中,比如智能手机上的语音助手,可以帮助用户更快地找到自己感兴 趣的商品,语音助手和人进行交流的核心技术是自然语言处理,分词、词性 标注、命名实体识别这些基础的底层模型,直接影响NLP(Natural Language Processing,NLP多数情况下指的是计算机上各种大同小异的语言处理应用, 以及用NLP技术所构建的实际应用程序,比如分词、词性标注、命名实体识 别、句法分析、语法依存等)技术的精确度,工业界现有的分词技术是双向最大匹配算法,词性标注和命名实体识别是依靠大量人工标注,结合条件随 机场等传统机器学习方法进行预测,如何能构建一套通用的NLP底层算法, 是一个很有意义的工作。
现有分词技术采用双向最大匹配方法,需要构建比较完善的词库,而且 对新登录词不能识别;现有词性标注技术和命名实体识别技术采用大量人工 标注语料作为训练集,作为条件随机场模型的输入,需要自定义特征模板, 只能挖掘语料中的线性特征,而且人工标注成本较大。
由此可见,现有技术具有分词不够灵活准确,词性标注和命名实体识别 人力成本高特征提取不充分等缺点。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种中文词法分析模型 的训练方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于 相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种中文词法分析模型的训练方法,包括:
提供训练语料集;
对所述训练语料集进行标注;
对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述 中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循 环单元层、第二双向门控循环单元层、全连接层及条件随机场层;
至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文 词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意 图预测中的一项或多项。
可选地,所述中文词法分析模型的输出用于该中文词法分析模型或另一 中文词法分析模型的训练。
可选地,所述对所述训练语料集进行标注还包括:
利用映射表验证方式或多模型交叉验证方式对所述训练语料集的标注 进行验证。
可选地,所述标注的内容至少包括:用户首句输入、业务场景及槽位槽 值标注中的一项或多项。
可选地,所述嵌入层用于提取各训练语料的特征向量,以输入所述第一 双向门控循环单元层,其中,所提取的特征向量包括字符特征向量、词语特 征向量、上下文特征向量及槽位标记向量中的一项或多项。
可选地,所述槽位标记向量包括:标识槽位起始的向量、标识槽位中间 的向量、标识除了槽位起始和槽位中间的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811559376.0/2.html,转载请声明来源钻瓜专利网。