[发明专利]实体识别模型训练方法、装置、计算机设备及存储介质有效
申请号: | 202110611212.3 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113239697B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 于凤英;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
1.一种实体识别模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括训练标准实体和与每一所述训练标准实体相对应的多个训练同义实体;
采用词频算法,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,获取每一所述训练同义实体与所述训练标准实体的稀疏相似度;
采用语义识别模型,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,得到每一所述训练同义实体对应的密集相似度;
根据所述稀疏相似度和所述密集相似度,从所述训练同义实体中筛选得到目标同义实体;
采用批量梯度下降法对所述目标同义实体进行处理,获取多个分批训练集;
依次采用所述分批训练集,对biobert模型进行分批训练,优化所述biobert模型中的损失函数,获取实体识别模型;
所述根据所述稀疏相似度和密集相似度,从所述训练同义实体中筛选得到目标同义实体,包括:
获取目标参数,所述目标参数包括获取数量参数和比例参数;
将密集相似度最高的前a个训练同义实体放入第一候选实体集,其中,a为所述数量参数和比例参数的积;
将稀疏相似度最高的前b个训练同义实体放入第二候选实体集,其中,b为所述数量参数减去a的差;
根据第一候选实体集和第二候选实体集获取与所述数量参数对应的目标同义实体,具体包括:
判断第一候选实体集和第二候选实体集中是否存在相同的训练同义实体;若第一候选实体集和第二候选实体集中存在相同的训练同义实体,则将相同的训练同义实体从第一候选实体集中删除,得到第三候选实体集;统计第一候选实体集和第二候选实体集中相同的训练同义实体对应的实体数量;根据密集相似度从除第一候选实体集和第二候选实体集外的训练同义实体中,获取与实体数量相应的候选同义实体,根据候选同义实体、第二候选实体集和第三候选实体集获取目标同义实体。
2.如权利要求1所述的实体识别模型训练方法,其特征在于,所述采用词频算法,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,获取每一所述训练同义实体与所述训练标准实体的稀疏相似度,包括:
采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理,获取所述训练标准实体的标准稀疏向量,以及每一所述训练同义实体的同义稀疏向量;
将每一所述同义稀疏向量分别与所述标准稀疏向量进行内积处理,获取每一所述同义稀疏向量与所述标准稀疏向量的稀疏相似度。
3.如权利要求1所述的实体识别模型训练方法,其特征在于,所述采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理,获取所述训练标准实体的标准稀疏向量,以及每一所述训练同义实体的同义稀疏向量,包括:
对所述训练标准实体和每一所述训练同义实体均进行分割处理,分别得到所述训练标准实体对应的多元分割字符和所有所述训练同义实体对应的多元分割字符;
采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取训练标准实体对应的标准稀疏向量;采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取每一所述训练同义实体的同义稀疏向量。
4.如权利要求3所述的实体识别模型训练方法,其特征在于,所述采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取训练标准实体对应的标准稀疏向量;采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取每一所述训练同义实体的同义稀疏向量,包括:
采用TF-IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率;采用TF-IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取所述同义实体中包含的多元分割字符对应的词频和逆文档频率;
基于所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率,获取训练标准实体对应的标准稀疏向量;
基于所述训练同义实体中包含的多元分割字符对应的词频和逆文档频率,获取训练同义实体对应的同义稀疏向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110611212.3/1.html,转载请声明来源钻瓜专利网。