[发明专利]一种基于混合模型的个性化职位信息推荐系统及实现方法在审
申请号: | 201510314383.4 | 申请日: | 2015-06-09 |
公开(公告)号: | CN104933239A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 薛安荣;黄祖卫 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 个性化 职位 信息 推荐 系统 实现 方法 | ||
技术领域
本文涉及个性化推荐,数据挖掘领域。
背景技术
随着大数据的思想落地,推荐系统渐渐受到业界的热捧,它给互联网带来的效益是无法估量的。不仅仅是电商,各种互联网行业慢慢的都引入了推荐技术,例如:电影网站、音乐播放器、社交平台、职位招聘、餐饮服务等等。对推荐系统而言,推荐结果的好坏严重影响用户对服务的评价。但是,目前大多数中小型应用中建立的推荐功能由于算法策略选取和设计的不合理,使推荐结果不准确。
冷启动和评分稀疏的问题一直是推荐方面不可避免的难题,针对这两个问题,本文提出一种基于并行式的混合推荐策略,设计了一套完整的职位信息推荐系统。针对系统采集的职位信息文本利用Lucene分词器和TF-IDF算法挖掘出文本中的具有主题含义的关键词。新用户注册时系统提供引导页面采集背景知识。对背景知识采用同样的方法挖掘关键词,选择恰当的相似性计算方法计算匹配新用户背景的职位进行推荐,这是一种典型的基于内容的推荐方式。另外系统还提出了一种基于聚类的协同过滤算法,通过填补预测评分优化用户-物品评分矩阵降低矩阵的稀疏度,利用FP-Growth关联挖掘算法发现潜在的关联规则,向用户推荐可能的职位组合,最后,基于归纳统计设计辅助推荐策略,增强系统粘性。
发明内容
为了解决以往的求职系统中个性化和智能化不足、以及冷启动和评分稀疏的问题,本文发明提出了一种基于混合模型的个性化职位信息推荐系统,采用多种推荐思想策略和结合职位招聘系统自身的特点设计一套个性化的职位信息推荐系统,采用的技术方案为:
一种基于混合模型的个性化职位信息推荐系统,包括表现层,推荐层,信息抽取层和信息采集层;所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之间、所述推荐层与所述表现层之间均通过共享数据实现衔接;
所述信息采集层负责从互联网招聘网站中抓取特征链接,编写网络爬虫程序,基于Nutch进行二次开发,通过修改Nutch中Crawl类代码,采用正则表达式对外链接进行过滤得到需要的特征链接,并将特征链接保存在本地的CrawlDb文件数据库中;
所述信息抽取层负责从特征页面中解析原始的职位信息,将底层获取的特征链接上传至HDFS文件系统;
所述推荐层负责整个职位推荐系统的推荐引擎算法,所述算法包括:基于内容的推荐算法、基于聚类分析的协同过滤算法,基于关联规则的推荐算法、基于归纳统计的辅助推荐算法;
所述表现层负责向用户提供交互界面,将推荐层计算出的推荐项目,通过网页的形式向求职者展现。
进一步地,
所述基于混合模型的个性化职位信息推荐系统采用基于JSP+JavaBean+Servlet的方法构建,静态页面使用HTML展现,动态页面使用JSP展现。
本发明还提出了一种基于混合模型的个性化职位信息推荐系统的实现方法,包括:信息采集层负责编写网络爬虫程序,从互联网的招聘网站中抓取特征链接,然后将特征链接作为信息抽取层的输入,信息采集层与信息抽取层通过共享爬虫抓取的特征链接数据进行沟通;信息抽取层采用基于Hadoop的并行抽取技术,从特征链接页面当中解析出职位信息数据,将职位信息按照指定格式保存在本地数据库;推荐层根据存储在数据库中的用户评分信息、用户点击行为信息和用户背景知识采用对应的推荐算法向表现层推送职位。
进一步,所述信息采集层的实现步骤包括:
步骤1.1:分析主流招聘网站的当中职位详情页面的链接特征,构造相应的正则表达式;
步骤1.2:修改Nutch当中Crawl.java类的代码,重新编译Nutch,部署Nutch;
步骤1.3:执行Nutch脚本文件,进行抓取。
进一步,所述信息抽取层的实现步骤包括:
步骤2.1:搭建Hadoop分布式平台,将爬虫模块产生的特征链接文本上传至HDFS当中;
步骤2.2:针对不同的职位详情页面的结构编写对应的MapReduce解析程序,获取职位详情的文本信息存储在HDFS当中;
步骤2.3:编写TF-IDF算法程序获取文本信息中的关键词作为职位信息的职位关键词。
进一步,所述推荐层中的基于内容的推荐算法的具体实现步骤包括:
步骤3.1:新用户根据引导页面定制偏好,包括专业背景、期望工资、期望工资地点、专业技能、备注信息,系统保存用户背景知识;
步骤3.2:利用Lucene分词和TF-IDF算法挖掘背景知识的关键词,按照用户id,关键词的形式存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510314383.4/2.html,转载请声明来源钻瓜专利网。