[发明专利]一种基于Bert模型的专业术语提取方法及装置有效
| 申请号: | 202111132931.3 | 申请日: | 2021-09-27 |
| 公开(公告)号: | CN113569016B | 公开(公告)日: | 2022-01-25 |
| 发明(设计)人: | 殷晓君;曹钢;于淼;徐娟 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06K9/62 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 模型 专业术语 提取 方法 装置 | ||
本发明公开了一种基于Bert模型的专业术语提取方法及装置,涉及词语提取技术领域,方法包括:将待提取数据分别输入到通用Bert模型以及专业Bert模型,得到通用attention矩阵以及专业attention矩阵;在专业attention矩阵中确定出满足成词条件的最小矩阵,将最小矩阵对应的词语加入到专业术语候选集;在通用attention矩阵中确定专业术语候选集中的词语对应的关系矩阵,将不满足成词条件的词语确定为专业术语。采用本发明,可以节省成本,提高专业术语提取的准确率。
技术领域
本发明涉及词语提取技术领域,特别是指一种基于Bert模型的专业术语提取方法及装置。
背景技术
专业术语是指在特定领域中对特定事物或者含义的称谓。如:医学领域中的“五脏六腑”; 计算机领域中的“量子计算”、“云原生”。专业术语提取在知识图谱建设、信息检索、推荐系统中具有广泛的应用。
现有专业中,术语自动提取方法通常包括:
1. 通过语言特征模板进行提取,如:“所谓[x]是”,“[x]的定义是”;
2. 通过统计信息打分进行提取,如统计tf、idf、边界熵、互信息等指标,构建打分公式;
3. 通过标注问题、使用CRF模型输出标注概率进行判断;
4. 使用判别模型,使用决策树,以各类统计特征,判定专业术语的概率;
5. 使用深度学习模型,如GAN进行术语的自动生成。
但上述方法均存在不足之处:
1. 模板需要专家总结,当前使用的机器学习方法,如CRF、决策树、GAN都需要大量的样本标注准备,这些方案成本比较高。
2. 当前统计信息都是在词汇层面,没有使用深层次的语义信息进行提取,导致提取的准确率较低。
发明内容
为了解决上述提取专业术语时成本高、准确率低的问题,本发明实施例提供了一种基于Bert模型的专业术语提取方法及装置。
为解决上述技术问题,本发明提供如下所述技术方案如下:
一方面,提供了一种基于Bert模型的专业术语提取方法,该方法由电子设备实现,该方法包括:
S1、获取预先训练好的通用Bert模型和专业Bert模型,其中,所述通用Bert模型根据通用训练样本训练得到,所述专业Bert模型根据专业训练样本训练得到;
S2、获取待提取数据;
S3、将所述待提取数据分别输入到所述通用Bert模型以及所述专业Bert模型,得到所述待提取数据的通用attention矩阵以及专业attention矩阵;其中,将所述通用attention矩阵命名为att_matrix,将所述专业attention矩阵命名为pro_att_matrix;
S4、在所述pro_att_matrix中,确定出满足成词条件的最小矩阵,将最小矩阵对应的词语加入到专业术语候选集;
S5、在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵,将对应的关系矩阵不满足所述成词条件的词语确定为专业术语。
可选地,所述S4中的在所述pro_att_matrix中,确定出满足成词条件的最小矩阵,将最小矩阵对应的词语加入到专业术语候选集,包括:
S41、获取i的初始值、k的初始值以及所述pro_att_matrix的行数N,其中,所述i的初始值为1,所述k的初始值为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111132931.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆柱形货物运输集装箱
- 下一篇:一种无源周期磁控式矿山石块破碎筛分设备





