[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审

专利信息
申请号: 201610140634.6 申请日: 2016-03-14
公开(公告)号: CN105786781A 公开(公告)日: 2016-07-20
发明(设计)人: 沈启明 申请(专利权)人: 裴克铭管理咨询(上海)有限公司
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 200125 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 职位 描述 文本 相似 计算方法
【权利要求书】:

1.一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述基于主题模 型的职位描述文本相似度计算方法包括以下步骤:

步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位 描述文本;

步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地 点、工作时间、学历或专业;

步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原或词 干提取的语义预处理;

步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料 库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中删除;

步骤5)主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库 中所有文本在潜层语义空间中的向量化表示;

步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实 现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本 将被划分为一类;

步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及 特定特征的文本相似度计算,通过职位描述文本相似度计算,用户便能够量化分析职位信 息的相似程度。

2.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤1中的两种方式分别指:第一种方式是用户指定网络地址,系统获取存储在 互联网上的文本;第二种方式是用户直接在服务器端输入需要处理的文本,海量文本数据 采用分布式存储方式存储。

3.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上,将文本映射为主 题表示空间中的向量,利用主题模型,提取职位描述文本在不同主题上的投影特征。

4.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专 业。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610140634.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top