[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审
申请号: | 201610140634.6 | 申请日: | 2016-03-14 |
公开(公告)号: | CN105786781A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 沈启明 | 申请(专利权)人: | 裴克铭管理咨询(上海)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200125 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题模型的职位描述文本相似度计算方法,其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征,同时结合多个特定特征,如工作年限、工作地点、学历等,实现了职位描述文本的向量化表示,完成了文本相似度计算和聚类等功能。本发明采用语义特征和领域特定特征来表示文本,极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中,发现职能高度重合的职位的功能,辅助相应部门完成分析决策。本发明能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点,从而更好的实现职能重合职位的自动判别功能。 | ||
搜索关键词: | 一种 基于 主题 模型 职位 描述 文本 相似 计算方法 | ||
【主权项】:
一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述基于主题模型的职位描述文本相似度计算方法包括以下步骤:步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位描述文本;步骤 2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地点、工作时间、学历或专业;步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理;步骤 4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中删除;步骤 5) 主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库中所有文本在潜层语义空间中的向量化表示;步骤 6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本将被划分为一类;步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算,通过职位描述文本相似度计算,用户便能够量化分析职位信息的相似程度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610140634.6/,转载请声明来源钻瓜专利网。