[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审

专利信息
申请号: 201610140634.6 申请日: 2016-03-14
公开(公告)号: CN105786781A 公开(公告)日: 2016-07-20
发明(设计)人: 沈启明 申请(专利权)人: 裴克铭管理咨询(上海)有限公司
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 200125 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 职位 描述 文本 相似 计算方法
【说明书】:

技术领域

发明属于信息检索和文本挖掘技术领域,具体的说是涉及一种基于主题模型的 职位描述文本相似度计算方法。

背景技术

随着企业间竞争的加剧,企业所拥有的人力资源在企业经营成本的占比越来越 高。与此相应,企业内部的人才调配与流动越来越频繁。因此,减少职能高度重合的职位需 求,充分利用在岗的人力资源是企业削减成本、提高效率的重要途径之一。随着企业规模不 断扩大,传统的确定职能相似职位的手段,如人工筛选判别已不能满足企业需求。因此,设 计一个职位描述文本相似度计算算法,实现职能重合职位的自动判别,部分甚至彻底取代 人工筛选这种高成本低效率的传统方法,已经是企业人力资源信息化建设中必须解决的问 题。

职位描述文本相似度计算方法,其核心问题是对文本内容进行表示及文本相似性 的评价。目前,常见的文本表示方法是采用向量空间模型,即首先从词汇表中抽取一组特征 词形成文本的表示空间,然后把文本映射为表示空间中的向量。表示向量元素的大小直接 反映了对应特征词对该文本的贡献程度。将表示向量归一化,利用余弦相似性可以计算文 本的相似度。向量空间模型的不足在于该模型假设了特征词之间的相互独立性,忽略了特 征词的相关性。因此,简单采用向量空间模型进行文本相似度计算往往会出现偏差。

发明内容

本发明为了克服现有技术存在的不足,提供一种基于主题模型的职位描述文本相 似度计算方法,它能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点,从 而更好的实现职能重合职位的自动判别功能。

本发明是通过以下技术方案实现的:一种基于主题模型的职位描述文本相似度计 算方法,其包括以下步骤:

步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位 描述文本;

步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地 点、工作时间、学历或专业。

步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原 或词干提取的语义预处理。

步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算 语料库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中 删除;

步骤5)主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库 中所有文本在潜层语义空间中的向量化表示;

步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实 现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本 将被划分为一类;

步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算公式为,公式中,和分别是待计算文本的表示向量,表示向量的第个分量。通过职位描述文本相似度计算,用户便能够量化分析职位信息的相似程度。通过设置相似度阈值,用户可以实现灵活的职位资源配比策略,从而为人力资源优化提供有效的指标支持。

所述步骤1中的两种方式分别指:第一种方式是用户指定网络地址,系统获取存储 在互联网上的文本;第二种方式是用户直接在服务器端输入需要处理的文本,海量文本数 据采用分布式存储方式存储。

所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上,将文本映射 为主题表示空间中的向量,利用主题模型,提取职位描述文本在不同主题上的投影特征。

所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历 或专业。

本发明的有益效果是:本申请公开了一种职位描述文本相似度计算的方法,其具 体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明 提取了职位描述文本在不同主题上的投影特征,同时结合多个特定特征,如工作年限、工作 地点、学历等,实现了职位描述文本的向量化表示,完成了文本相似度计算和聚类等功能。 与现有文本相似度计算方法相比,本发明采用语义特征和领域特定特征来表示文本,极大 提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中, 发现职能高度重合的职位的功能,辅助相应部门完成分析决策。

附图说明

为了更清楚地说明本发明的实施方式,对实施过程中的附图作简单介绍:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610140634.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top