[发明专利]模型训练、语义完整性识别方法和装置在审
申请号: | 202010794728.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112183114A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 夏海兵;佘丽丽;毛宇;林昊;徐伟 | 申请(专利权)人: | 招联消费金融有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/279 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 刘佳妮 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 语义 完整性 识别 方法 装置 | ||
1.一种用于语义完整性识别的模型训练方法,其特征在于,所述方法包括:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
2.根据权利要求1所述的方法,其特征在于,所述语义完整样本包括完整样本语句;所述根据所述语义完整样本,得到语义不完整样本,包括:
对所述完整样本语句进行切词处理,得到完整样本词;
通过去除所述完整样本词中的停用词,得到完整样本关键词;
通过对所述完整样本关键词进行不完全选取,得到不完整样本关键词;
根据所述不完整样本关键词,得到所述语义不完整样本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,包括:
对所述完整样本关键词进行编码,得到完整样本关键词编码,以及,对所述不完整样本关键词进行编码,得到不完整样本关键词编码;
根据所述完整样本关键词编码和所述不完整样本关键词编码,得到所述模型训练样本。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,还包括:
获取所述完整样本关键词对应的完整样本词性,以及,获取所述不完整样本关键词对应的不完整样本词性;
对所述完整样本词性进行编码,得到完整样本词性编码,以及,对所述不完整样本词性进行编码,得到不完整样本词性编码;
根据所述完整样本关键词编码、所述不完整样本关键词编码、所述完整样本词性编码和所述不完整样本词性编码,得到所述模型训练样本。
5.根据权利要求2所述的方法,其特征在于,所述获取语义完整样本,包括:
获取候选样本语句;
通过对所述候选样本语句进行句法分析处理,得到所述候选样本语句的语句结构;
根据所述语句结构,识别所述候选样本语句的语句意图;
若所述语句意图为单意图,则将所述候选样本语句作为所述完整样本语句;
根据所述完整样本语句,得到所述语义完整样本。
6.一种语义完整性识别方法,其特征在于,所述方法包括:
获取待识别语句;
对所述待识别语句进行预处理,得到所述待识别语句的词向量;
将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
7.根据权利要求6所述的方法,其特征在于,所述对所述待识别语句进行预处理,得到所述待识别语句的词向量,包括:
对所述待识别语句进行切词处理,得到待识别语句切词;
通过去除所述待识别语句切词中的停用词,得到待识别语句关键词;
通过对所述待识别语句关键词进行编码,得到待识别语句关键词编码;
根据所述待识别语句关键词编码,得到所述待识别语句的词向量。
8.根据权利要求7所述的语义完整性识别方法,其特征在于,所述方法还包括:
获取所述待识别语句关键词的词性;
通过对所述词性进行编码,得到关键词词性编码;
根据所述关键词词性编码,得到所述待识别语句的词性向量;
将所述词向量和所述词性向量输入所述完整性识别模型,得到所述完整性概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招联消费金融有限公司,未经招联消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010794728.1/1.html,转载请声明来源钻瓜专利网。