[发明专利]一种AI简历筛选方法、系统、设备和存储介质在审
申请号: | 202111169078.2 | 申请日: | 2021-10-02 |
公开(公告)号: | CN113886562A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 孙红升;蒋华;刘建华;邢继风;王超;姚凯 | 申请(专利权)人: | 智联(无锡)信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06N3/04;G06N3/08;G06Q10/10 |
代理公司: | 北京市环球律师事务所 11663 | 代理人: | 王瀚;赵重甲 |
地址: | 214000 江苏省无锡市经济开发区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ai 简历 筛选 方法 系统 设备 存储 介质 | ||
1.一种AI简历筛选方法,包括:
(a)提取一定数量的待筛选求职者简历;
(b)获取所有简历的文本内容数据;
(c)对文本数据进行筛选与初步处理,得到全部简历优化后的纯文本内容;
(d)将全部简历的纯文本内容输入改进的BERT模型;
(e)所述BERT模型采用多层Transformer架构;
(f)在Transformer堆叠的后面设置一个导师分类器(teacher classifier);
(g)在所述BERT模型的每层Transformer架构后面连接一个学生分类器(studentclassifier);
(h)计算每层Transformer的学生分类器输出结果的分类置信度;
(i)分类置信度高于预设阈值时,继续运行下一层Transformer,并重复步骤h;
(j)分类置信度低于预设阈值时,直接对该结果进行输出;
(k)根据输出结果判断该简历是否符合要求。
2.根据权利要求1所述的AI简历筛选方法,其特征在于,还包括一种所述BERT模型的训练方法,
(1)在样本采集中,增加文本内容的检测范围,对简历文字输入部分均进行采集检测,包括长文本和短文本,简历标注样本中必须覆盖这些特殊性文本并同时处理这两种特殊文本结构;(2)首先使用数据采集系统提取训练集简历的文本内容数据,对数据进行筛选与初步处理,之后使用全部简历的文本内容直接进行BERT模型训练;(3)针对包含长样本的模型,输出为三类,分别为正常、过于简单、无意义;针对包含短样本的模型,输出为两类,分别为正常、无意义。
3.根据权利要求2所述的AI简历筛选方法,其特征在于,所述训练方法中,平衡样本采集过程还包括:(1)由于正样本的数量远远大于负样本,为了样本平衡,采用正样本的随机下采样处理,采样比例分别为1∶1、1∶2、1∶5、1∶10,然后对采样后的样本分别进行验证;(2)由于负样本数量少,负样本采样过程采用插值上采样法进行;(3)由于负样本中包含一部分用户随机使用各种输入法输入的文本,想要通过模型识别出这部分数量很少的负样本,需要通过正样本构造负样本的方法构造出训练样本,通过将限制一定长度的正样本在分字、分词后随机打乱前后顺序或者针对随机抽取一定比例的词语组成新的负样本来实现;(4)负样本类型不足时,对于全类型负样本采用人工生成的方法,从语料库中圈定对于简历各个项目的无意义部分,随机截取并组合这些挑选出的无意义词;(5)根据人工或者模型筛选和标注出的实际低质量简历样本改造这些样本,构建相似内容的新训练负样本;(6)在样本采集总量中,长文本分类占80%,短文本分类占20%,多余的短文本放弃。
4.根据权利要求1所述的AI简历筛选方法,其特征在于,步骤(h)和(g)中,原始BERT模型称为主干,每个外接学生分类器称为分支,这里的学生分类器都是通过主干最后一层的导师分类器自蒸馏得到的。
5.根据权利要求4所述的AI简历筛选方法,其特征在于,所述自蒸馏的方法为知识蒸馏法,利用训练好的导师网络去指导一个学生网络训练,两个网络任务相同且能够达到相同的目的,其中导师网络参数设置和计算过程比学生网络更复杂;在预训练和微调阶段都只更新主干参数,微调完后冻结主干参数,保证预训练和微调阶段学习的知识不被影响,用分支分类器蒸馏主干分类器的概率分布,仅用分支分类器来拟合主干分类器的分布。
6.根据权利要求1所述的AI简历筛选方法,其特征在于,步骤(g)中,所述学生分类器用来根据每层Transformer的输出数据,计算输出该层最终的类别概率;所述学生分类器设置为包括三层全连接层和一层自注意力机制层的神经网络,并且通过Softmax函数将多分类的输出值转换为范围在[0,1]之间且和为1的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智联(无锡)信息技术有限公司,未经智联(无锡)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111169078.2/1.html,转载请声明来源钻瓜专利网。