[发明专利]一种类双塔模型的多特征交互网络招聘文本分类方法有效

专利信息
申请号: 202110600441.5 申请日: 2021-05-31
公开(公告)号: CN113342933B 公开(公告)日: 2022-11-08
发明(设计)人: 高尚兵;张骏强;李文婷;相林;陈浩霖;于永涛;周君;朱全银;张正伟;汪长春;蔡创新;郝明阳;胡序洋;李少凡 申请(专利权)人: 淮阴工学院
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 田凌涛
地址: 210000 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 种类 模型 特征 交互 网络 招聘 文本 分类 方法
【权利要求书】:

1.一种类双塔模型的多特征交互网络招聘文本分类方法,其特征在于:执行如下步骤I至步骤VI,获得招聘文本分类概率模型,以及执行如下步骤A至步骤B,实现对目标招聘文本的分类;

步骤I. 收集各条招聘样本文本,并确定各招聘样本文本分别对应预设各招聘分类类别中的真实分类类别,并分别针对各条招聘样本文本,按预设各稠密属性与预设各稀疏属性,将招聘样本文本划分为稀疏特征文本和稠密特征文本,进而获得各条招聘样本文本分别所对应的稀疏特征文本和稠密特征文本,然后进入步骤II;

上述步骤I包括如下步骤I1至步骤I3;

步骤I1. 收集各个招聘样本文本,并确定各文本样本对象分别对应预设各招聘分类类别中的真实分类类别,然后进入步骤I2;

步骤I2. 删除各招聘样本文本中各预设无意义类型的词,更新各个招聘样本文本,然后进入步骤I3;

步骤I3. 分别针对各条招聘样本文本,按预设各稠密属性与预设各稀疏属性,将招聘样本文本划分为稀疏特征文本和稠密特征文本,进而获得各条招聘样本文本分别所对应的稀疏特征文本和稠密特征文本,然后进入步骤II;

步骤II. 分别针对各条招聘样本文本,获得其稀疏特征文本所对应的字向量序列,以及获得其稠密特征文本所对应的one-hot向量序列,进而获得各条招聘样本文本分别所对应的字向量序列与one-hot向量序列,然后进入步骤III;

其中,上述步骤II中,分别针对各条招聘样本文本,按如下步骤II-I-I1至步骤II-I-I2,获得其稀疏特征文本所对应的字向量序列;

步骤II-I-I1.针对招聘样本文本的稀疏特征文本,应用预训练语言模型,获得该稀疏特征文本中各个字分别所对应的字向量,然后进入步骤II-I-I2;

步骤II-I-I2.由该稀疏特征文本中各个字分别所对应的字向量,组成该稀疏特征文本所对应的字向量序列;

或者分别针对各条招聘样本文本,按如下步骤II-I-II1至步骤II-I-II3,获得其稀疏特征文本所对应的字向量序列;

步骤II-I-II1. 针对招聘样本文本的稀疏特征文本执行分词处理,并按预设连词库删除其中的连词,获得该稀疏特征文本中的各个稀疏特征分词,然后进入步骤II-I-II2;

步骤II-I-II2. 分别针对该稀疏特征文本中的各个稀疏特征分词,应用word2vec算法,获得稀疏特征分词所对应的字向量,然后进入步骤II-I-II3;

步骤II-I-II3. 由该稀疏特征文本中各稀疏特征分词分别所对应的字向量,组成该稀疏特征文本所对应的字向量序列;

并且上步骤II中,分别针对各条招聘样本文本,按如下步骤II-II-1至步骤II-II-3,获得其稠密特征文本所对应的one-hot向量序列;

步骤II-II-1. 针对招聘样本文本的稠密特征文本执行分词处理,并按预设词表删除其中的相应字符,获得该稠密特征文本中的各个稠密特征分词,然后进入步骤II-II-2;

步骤II-II-2. 选择该稠密特征文本中的各个非重复稠密特征分词,并按各非重复稠密特征分词分别在该稠密特征文本中第一次出现的位置,针对该各个非重复稠密特征分词进行排序,然后进入步骤II-II-3;

步骤II-II-3. 获得各个非重复稠密特征分词分别所对应的向量,并结合各非重复稠密特征分词的排序,构成该稠密特征文本所对应的one-hot向量序列;

步骤III. 基于对应字向量序列的预设第一特征提取模型、对应one-hot向量序列的预设第二特征提取模型、两特征提取模型分别对应的特征自交互模型、以及两特征提取模型之间的全局特征交互模型,以预设第一特征提取模型输入端、预设第二特征提取模型输入端为输入,预设第一特征提取模型输出端、预设第二特征提取模型输出端、以及各特征自交互模型输出与全局特征交互模型输出的融合输出端进一步对接特征融合层的输入端,特征融合层的输出端依次串联注意力层、softmax层,构建文本分类初始概率模型,然后进入步骤VI;

步骤VI. 以各招聘样本文本分别所对应的字向量序列与one-hot向量序列为输入,各招聘样本文本分别对应预设各招聘分类类别的概率为输出,结合各招聘样本文本分别对应预设各招聘分类类别中的真实分类类别,针对文本分类初始概率模型进行训练,获得招聘文本分类概率模型;

步骤A. 按步骤I至步骤II,获得目标招聘文本所对应的字向量序列与one-hot向量序列;

步骤B. 应用所述招聘文本分类概率模型,针对目标招聘文本所对应的字向量序列与one-hot向量序列进行处理,获得目标文本对象分别对应预设各招聘分类类别的概率,并选择其中最大概率所对应的分类类别,作为目标文本对象所对应的分类类别,实现对目标招聘文本的分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110600441.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top