[发明专利]一种基于人的信息聚合方法和装置有效
申请号: | 201410857598.6 | 申请日: | 2015-08-04 |
公开(公告)号: | CN104504138A | 公开(公告)日: | 2015-07-29 |
发明(设计)人: | 石忠民;徐亚波;莫敏 | 申请(专利权)人: | 广州索答信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 汤喜友 |
地址: | 510000 广东省广州市广州高新技术产业*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 聚合 方法 装置 | ||
技术领域
本发明涉及信息聚合技术领域,具体涉及一种基于人的信息聚合方法和装置。
背景技术
我国人力资源新兴市场规模已达百亿元,以智联招聘和前程无忧等为首的互联网企业降低了用人单位招聘工作的时间和经济成本,提供了极大的便利,已成为人力资源服务的主体。然而,在互联网海量的应聘者信息中,用人单位找到合适的人才依然是大海捞针。核心的问题是:招聘网站中的人才信息普遍存在着主观、片面、不完整、不准确的弊端,并且严重缺乏高端人才信息。传统的搜索引擎通常都基于静态的网页信息,并以页面为中心来构建索引和提供搜索服务。
基于现有的人才信息所存在的问题,需要建立以人为中心,实现关于人才的全面信息描述的语义资料库,并且其信息描述要准确。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于人的信息聚合方法和装置,通过对不同数据源的数据进行聚合,以形成针对个人的全面信息描述。
为解决上述问题,本发明所采用的技术方案如下:
方案一:
一种基于人的信息聚合方法,包括以下步骤:
步骤A:利用数据模板中定义的匹配规则对相应的网页中的数据进行匹配,获取个人属性数据,个人属性数据包括姓名和与姓名对应的属性数据;
步骤B:针对两条姓名不同的个人属性数据进行相似度匹配,判断相似度是否大于预设阈值,若是,则将该两条个人属性数据进行融合;若否,则不融合该两条个人属性数据;
步骤C:针对两条姓名相同的个人属性数据进行相似度匹配,判断相似度是否大于预设阈值,若是,则将该两条个人属性数据进行融合;若否,则不融合该两条个人属性数据。
进一步地,在步骤B和步骤C中,预设阈值通过以下方法确定:选取一批来自不同网站中的不同姓名但实质为同一个人的个人属性数据作为样本,分别计算该批个人属性数据中的每个属性的平均相似度,将每个平均相似度乘以其属性对应的权重值,再将每个乘以权重值后的平均相似度相加所得到的结果作为预设阈值。
进一步地,属性的平均相似度由以下方法获得:样本中属于同一属性的数据具有多个,将属于同一属性的多个数据进行每两个数据计算出一个相似度,进而得到多个相似度,针对多个相似度求平均值则得到属于该属性的平均相似度。
方案二:
一种基于人的信息聚合装置,包括以下模块:
模块A:用于利用数据模板中定义的匹配规则对相应的网页中的数据进行匹配,获取个人属性数据,个人属性数据包括姓名和与姓名对应的属性数据;
模块B:用于针对两条姓名不同的个人属性数据进行相似度匹配,判断相似度是否大于预设阈值,若是,则将该两条个人属性数据进行融合;若否,则不融合该两条个人属性数据;
模块C:用于针对两条姓名相同的个人属性数据进行相似度匹配,判断相似度是否大于预设阈值,若是,则将该两条个人属性数据进行融合;若否,则不融合该两条个人属性数据。
进一步地,在模块B和模块C中,预设阈值通过以下方法确定:选取一批来自不同网站中的不同姓名但实质为同一个人的个人属性数据作为样本,分别计算该批个人属性数据中的每个属性的平均相似度,将每个平均相似度乘以其属性对应的权重值,再将每个乘以权重值后的平均相似度相加所得到的结果作为预设阈值。
进一步地,属性的平均相似度由以下方法获得:样本中属于同一属性的数据具有多个,将属于同一属性的多个数据进行每两个数据计算出一个相似度,进而得到多个相似度,针对多个相似度求平均值则得到属于该属性的平均相似度。
相比现有技术,本发明的有益效果在于:通过从不同数据源进行数据获取,可以实现以人为单位,对其相关的属性信息进行深度的挖掘,包括人的基本信息、兴趣、社会关系、经历等属性信息,形成针对个人的全面信息描述,为后面构建丰富的关于人的语义模型提供数据基础。
附图说明
图1为本发明的基于人的信息聚合方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图1所示,一种基于人的信息聚合方法,包括以下步骤:
步骤A:利用数据模板中定义的匹配规则对相应的网页中的数据进行匹配,获取个人属性数据,个人属性数据包括姓名和与姓名对应的属性数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410857598.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据分类管理方法及系统
- 下一篇:推广信息属性数据的获取方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置