[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审
申请号: | 201610140634.6 | 申请日: | 2016-03-14 |
公开(公告)号: | CN105786781A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 沈启明 | 申请(专利权)人: | 裴克铭管理咨询(上海)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200125 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 职位 描述 文本 相似 计算方法 | ||
1.一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述基于主题模 型的职位描述文本相似度计算方法包括以下步骤:
步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位 描述文本;
步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地 点、工作时间、学历或专业;
步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原或词 干提取的语义预处理;
步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料 库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中删除;
步骤5)主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库 中所有文本在潜层语义空间中的向量化表示;
步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实 现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本 将被划分为一类;
步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及 特定特征的文本相似度计算,通过职位描述文本相似度计算,用户便能够量化分析职位信 息的相似程度。
2.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤1中的两种方式分别指:第一种方式是用户指定网络地址,系统获取存储在 互联网上的文本;第二种方式是用户直接在服务器端输入需要处理的文本,海量文本数据 采用分布式存储方式存储。
3.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上,将文本映射为主 题表示空间中的向量,利用主题模型,提取职位描述文本在不同主题上的投影特征。
4.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征 在于:所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专 业。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610140634.6/1.html,转载请声明来源钻瓜专利网。