[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审

申请号：	201610140634.6	申请日：	2016-03-14
公开（公告）号：	CN105786781A	公开（公告）日：	2016-07-20
发明（设计）人：	沈启明	申请（专利权）人：	裴克铭管理咨询（上海）有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	200125 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于主题模型的职位描述文本相似度计算方法，其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征，同时结合多个特定特征，如工作年限、工作地点、学历等，实现了职位描述文本的向量化表示，完成了文本相似度计算和聚类等功能。本发明采用语义特征和领域特定特征来表示文本，极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中，发现职能高度重合的职位的功能，辅助相应部门完成分析决策。本发明能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点，从而更好的实现职能重合职位的自动判别功能。
搜索关键词：	一种基于主题模型职位描述文本相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于主题模型的职位描述文本相似度计算方法，其特征在于：所述基于主题模型的职位描述文本相似度计算方法包括以下步骤：步骤1）职位描述文本的输入和存储：所述计算方法允许使用者通过两种方式输入职位描述文本；步骤 2）特定特征提取：针对职位描述文本的特性，提取特定特征，如工作年限、工作地点、工作时间、学历或专业；步骤3）语义预处理：对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理；步骤 4）模型预处理：模型预处理将停用词和低频词过滤掉，形成主题模型的计算语料库，过滤停用词和低频词的目的是把与文本内容不相关的词，如介词或连词从文本中删除；步骤 5）主题模型分析：采用潜层语义分析模型对语料库进行主题分析，实现语料库中所有文本在潜层语义空间中的向量化表示；步骤 6）聚类分析：聚类分析首先组合文本在不同主题上的投影特征以及特定特征，实现职位描述文本的精确表示，然后将向量化后的文本进行聚类，特征相似的职位描述文本将被划分为一类；步骤7）职位描述文本相似度计算：基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算，通过职位描述文本相似度计算，用户便能够量化分析职位信息的相似程度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询（上海）有限公司，未经裴克铭管理咨询（上海）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610140634.6/，转载请声明来源钻瓜专利网。

上一篇：一种纸质文本生成装置及方法
下一篇：WPS在线插件中实现基于文档模板的多行报告的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主题模型的职位描述文本相似度计算方法在审

专利文献下载