[发明专利]基于机器学习的简历文档判别方法及装置有效

申请号：	201910234751.2	申请日：	2019-03-26
公开（公告）号：	CN109992778B	公开（公告）日：	2022-12-13
发明（设计）人：	黄威威;沈剑	申请（专利权）人：	深圳八爪网络科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35;G06V10/74
代理公司：	深圳市精英专利事务所 44242	代理人：	王海滨
地址：	518000 广东省深圳市南山区粤海街道高新区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习简历文档判别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的简历文档判别方法及装置，其中，所述基于机器学习的简历文档判别方法，包括：对导入文档进行预处理，得到导入文本；抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。本发明的技术方案能够在保护用户隐私信息前提下，高效快速准确的筛选出简历文档，从而提高用户体验。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。

背景技术

人力资源公司的用户简历一般都分布在不同的渠道，包括各大招聘网站、邮箱、U盘、云端、电脑桌面等。为了更好的管理用户的简历，平台会让用户将不同渠道的简历统一上传到管理平台。在上传的过程中，除了各大招聘网站的导入文本质量较高外，邮箱、U盘、云端、客户端等方式上传时会获取到用户很多隐私性的非简历文件。因此，为了能够自动高效正确的获取用户的导入文本，需要在文件上传时建立一种判别机制。

当前的处理机制有以下几种：

1、让用户上传所有的文档，然后进行解析。对解析后的文档进行分析判断。基于这种方法的判断存在一个非常大的问题就是用户安全隐私问题，会导致用户非简历类重要文件全部自动上传。

2、基于简单的规则进行判断，如“工作职责”、“基本信息”等。基于这种方法的判断的准确度低，而且这种规则很容易识别，导致在文本加入这些规则后达到以假乱真的效果。

有鉴于此，有必要提出对目前的简历判别方法进行进一步的改进。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用的第一个技术方案为：提供一种基于机器学习的简历文档判别方法，包括：

对导入文档进行预处理，得到导入文本；

抽取预处理导入文本中的关键词特征以及导入文本顺序特征，并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量；

根据构建的预测模型对文本特征向量进行预测，得到对应的置信度；

根据置信度对导入文本进行判别，如果置信度大于设定阈值，则表示导入文本为简历文档。

其中，所述抽取预处理导入文本中关键词特征，具体包括：