[发明专利]一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法有效

专利信息
申请号: 201510457976.6 申请日: 2015-07-30
公开(公告)号: CN105069560B 公开(公告)日: 2018-05-01
发明(设计)人: 马志柔;刘杰;伍海江;叶丹;吴怀林;钟华 申请(专利权)人: 中国科学院软件研究所
主分类号: G06Q10/06 分类号: G06Q10/06;G06F17/30
代理公司: 北京科迪生专利代理有限责任公司11251 代理人: 成金玉,孟卜娟
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,通过知识匹配和语义推理方法来实现对履历信息提取,得出履历中所隐含的工作时间、工作地点、工作单位、工作职位等信息;并可在此基础上对提取结果按照一定规则进行特征标识,支持基于领域特征进行履历的语义搜索。本发明提高了信息提取的正确率,实现对履历的自动化特征标识。
搜索关键词: 一种 基于 知识库 规则 履历 信息 抽取 特征 标识 分析 系统 方法
【主权项】:
一种基于知识库的履历信息抽取系统,其特征在于包括:知识库集模块、时间信息提取模块、划分语义模块、知识匹配语义推理模块和更新知识库集模块;知识库集模块包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用;所述行政区划信息集是对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;时间信息提取模块,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;划分语义模块,将去除时间信息后的履历部分拆分成一个个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;知识匹配模块,对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;语义分析和知识提取模块,对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;更新知识库集模块,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度;所述知识匹配模块具体实现为:(21)选取行政区划信息集,分层进行正向最大匹配,将分出的词标注为工作地点;(22)选取职位信息集,将剩余语义模块部分进行逆向最大匹配,将分出的词标注为工作职位;(23)将未匹配的剩余语义模块部分进行普通分词标注;所述语义分析和知识提取模块实现为:(31)利用行政区划信息集将地址信息的补全和修正;(32)利用统计和规则相结合方法对词组进行组合或拆分,得出工作单位和工作职位;(33)利用单位信息集对提取结果进行校验。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510457976.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top