[发明专利]确定两份简历为相同人才的识别方法及装置有效
申请号: | 201811340166.2 | 申请日: | 2018-11-12 |
公开(公告)号: | CN109472310B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 邹丽霞;沈剑 | 申请(专利权)人: | 深圳八爪网络科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 葛勤 |
地址: | 518000 广东省深圳市南山区蛇*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 简历 相同 人才 识别 方法 装置 | ||
1.一种确定两份简历为相同人才的识别方法,其特征在于,所述确定两份简历为相同人才的识别方法,包括:
确认两份待识别简历的姓名信息,在待识别简历的姓名信息为姓名全称时,根据第一模型特征组合从待识别简历中抽取对应的第一目标特征;在识别简历的姓名信息为姓氏时,根据第二模型特征组合从待识别简历中抽取对应的第二目标特征;在识别简历的姓名信息为空白时,根据第三模型特征组合从待识别简历中抽取对应的第三目标特征;
根据比对规则计算两份待识别简历的目标特征的相似性,以及根据相似性与姓名信息分别生成对应的第一特征向量、第二特征向量及第三特征向量;
利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测,以确定两份待识别简历是否为相同人才;其中,
所述第一模型特征组合中有7个模型特征,分别为姓名、教育背景中的学校名称、专业、教育开始时间、教育结束时间、工作经历中的所在公司名称及职位名称;
所述第二模型特征组合中有7个模型特征,分别为姓氏频繁度、教育背景中的学校名称、专业、教育开始时间、教育结束时间、工作经历中的所在公司名称及职位名称,其中,所述姓氏频繁度为中国姓氏的使用频率;
所述第三模型特征组合中有8个模型特征,分别为年龄、性别,教育背景中的学校名称、专业、教育开始时间、教育结束时间、工作经历中的所在公司名称及职位名称,其中,所述年龄与性别两者的加权对应姓名模型特征;
所述经训练的机器学习分类器模型包括机器学习分类器模型A及机器学习分类器模型B,具体的,利用机器学习分类器模型A对第一特征向量及第三特征向量进行预测,以及利用经训练的机器学习分类器模型B对第二特征向量进行预测;
所述利用经训练的机器学习分类器模型分别对第一特征向量、第二特征向量及第三特征向量进行预测之前,还包括:对机器学习分类器模型进行训练,具体包括:
在多份简历样本中对任意两份进行样本标注得到正例样本及负例样本,所述正例样本表示两份简历属于同一人,所述负例样本表示两份简历属于不同人;
确定简历样本中姓名信息,在姓名信息为姓名全称时,分别选取姓名、教育背景中的学校名称、专业、教育开始时间、教育结束时间、工作经历中的所在公司名称及职位名称作为第一模型特征组合;在姓名信息为姓氏时,分别选取姓氏频繁度、教育背景中的学校名称、专业、教育结束时间、教育开始时间、工作经历中的所在公司名称及职位名称作为第二模型特征组合;
根据对比规则计算两份简历样本中模型特征的相似性,以及根据相似性与姓名信息生成对应的两个样本特征向量;
根据分类算法分别对两个样本特征向量进行训练,以得到最优的机器学习分类器模型A及机器学习分类器模型B。
2.如权利要求1所述的确定两份简历为相同人才的识别方法,其特征在于,还包括根据姓氏使用频率将姓氏频繁度顺次分成多个等级。
3.如权利要求1所述的确定两份简历为相同人才的识别方法,其特征在于,所述分类算法包括随机森林算法、梯度提升树算法、支持向量机算法、逻辑回归算法及深度学习算法中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳八爪网络科技有限公司,未经深圳八爪网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811340166.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种X光安检机图片物体检测方法
- 下一篇:一种用户行为识别方法及装置