[发明专利]一种简历信息抽取方法、装置、设备及存储介质在审
| 申请号: | 202110071840.7 | 申请日: | 2021-01-19 |
| 公开(公告)号: | CN114817484A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 吴智东 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
| 地址: | 510530 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 简历 信息 抽取 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种简历信息抽取方法、装置、设备及存储介质。该方法包括:通过获取简历文本数据,根据预设的分隔符对简历文本数据进行切分,获取简历文本数据的句子单元数据;将句子单元数据输入预先训练好的场景分类模型中,通过场景分类模型确定句子单元数据的场景类别;将句子单元数据分类聚合,得到每个场景类别对应的场景文本数据;根据场景文本数据的场景类别,将场景文本数据输入对应的预先训练好的长文本信息抽取模型中,通过长文本信息抽取模型抽取场景文本数据中的长文本信息。通过上述技术手段,考虑了目标句子上下文之间的语义信息和句间特征相关性等特征,提高了长文本信息抽取模型的抽取召回率和准确率。
技术领域
本申请实施例涉及线下简历信息化技术领域,尤其涉及一种简历信息抽取方法、装置、设备及存储介质。
背景技术
简历解析是将非结构化或半结构化的简历文本转化为结构化数据的过程,对于企业招聘管理来说,简历解析是简历信息化的一个重要部分。
简历信息抽取的抽取包括四大类属性:“个人基本信息”、“教育经历”、“项目经历”和“工作经历”。通常在对简历进行解析时,会使用命名实体识别技术识别其中的“人名”、“地名”、“毕业院校”、“专业”、“工作单位”、“职位”和“时间”等。再通过规则的方法,抽取目标的其他字段,如“在校经历”、“学术成果”、“项目描述”、“实习职责”和“工作职责”等。
发明人发现,在使用上述方法进行简历信息抽取时,不同的实体抽取准确率不同,如“人名”、“时间”和“地名”等这类实体抽取准确率较高,而“毕业院校”和“工作单位”等这类实体抽取准确率较低,若当前的实体没有识别出来,还会影响基于规则方法抽取数据信息的准确率。除此之外,通过规则方法来提取文本较长的数据信息,需要事先穷举所有可能存在的规则模板,而简历中的“在校经历”、“学术成果”、“项目描述”、“实习职责”和“工作职责”等长文本字段表述形式千差万别,难以穷举所有可能出现的规则模板,导致解析的准确率不高,且模板维护和优化的成本都很大。
发明内容
本发明实施例提供一种简历信息抽取方法、装置、设备及存储介质,以提高长文本信息的抽取召回率和准确率。
在第一方面,本发明实施例提供了一种简历信息抽取方法,包括:
获取简历文本数据,根据预设的分隔符对所述简历文本数据进行切分,获取简历文本数据的句子单元数据;
将所述句子单元数据输入预先训练好的场景分类模型中,通过所述场景分类模型确定所述句子单元数据的场景类别;
将所述句子单元数据分类聚合,得到每个场景类别对应的场景文本数据;
根据所述场景文本数据的场景类别,将所述场景文本数据输入对应的预先训练好的长文本信息抽取模型中,通过所述长文本信息抽取模型抽取所述场景文本数据中的长文本信息。
在第二方面,本发明实施例提供了一种简历信息抽取装置,包括:
数据获取模块,被配置为获取简历文本数据,根据预设的分隔符对所述简历文本数据进行切分,获取简历文本数据的句子单元数据;
场景类别确定模块,被配置为将所述句子单元数据输入预先训练好的场景分类模型中,通过所述场景分类模型确定所述句子单元数据的场景类别;
聚合模块,被配置为将所述句子单元数据分类聚合,得到每个场景类别对应的场景文本数据;
长文本信息抽取模块,被配置为根据所述场景文本数据的场景类别,将所述场景文本数据输入对应的预先训练好的长文本信息抽取模型中,通过所述长文本信息抽取模型抽取所述场景文本数据中的长文本信息。
在第三方面,本发明实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
存储器,用于存储一个或多个程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110071840.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接入网系统
- 下一篇:一种参数优化方法及相关装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





