[发明专利]一种构词紧密度确定方法、装置、电子设备及存储介质在审
| 申请号: | 202110636673.6 | 申请日: | 2021-06-08 |
| 公开(公告)号: | CN113342936A | 公开(公告)日: | 2021-09-03 |
| 发明(设计)人: | 梁吉光;徐凯波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/242;G06F40/289;G06F40/30 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;石鸣宇 |
| 地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 构词 密度 确定 方法 装置 电子设备 存储 介质 | ||
本申请涉及一种构词紧密度确定方法、装置、电子设备及存储介质。其中,方法包括:获取目标词库,其中,目标词库中包括候选汉字和由候选汉字构成的候选词语;通过确定每个候选词语中包括的候选汉字,来确定目标词库对应的共现关系;基于共现关系计算得到每两个候选汉字之间的汉字间构词紧密度;基于共现关系计算得到每个候选汉字与每个候选词语之间的字词间构词紧密度。本申请不需要大规模训练数据集,只需基于目标词库对应的共现关系,即可快速确定出没两个候选汉字之间的汉字间构词紧密度,以及每个候选汉字与每个候选词语之间的字词间构词紧密度,便于后期计算得到每个候选汉字的字向量。
技术领域
本申请涉及语义识别技术领域,尤其涉及一种构词紧密度确定方法、装置、电子设备及存储介质。
背景技术
随着预训练语言模型(Pre-trained Language Models,PLMs)在自然语言处理(Neutral Language Processing,NLP)领域各种子任务,成为NLP领域研究的必要处理过程。
PLMs对词语进行建模,即学习word embedding(嵌入),将对词语粒度学习出好的向量表示,即词向量。
相关技术中的GPT-2、GPT-3、GloVe等预训练词向量模型需要在海量语料上才能取得较好的效果,训练成本极高,且不能对未登录词进行embedding表示。
针对相关技术中存在的诸多技术问题,目前尚未提供有效的解决方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种构词紧密度确定方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种构词紧密度确定方法,包括:
获取目标词库,其中,所述目标词库中包括候选汉字和由所述候选汉字构成的候选词语;
通过确定每个所述候选词语中包括的所述候选汉字,来确定所述目标词库对应的共现关系,其中,所述共现关系用于指示所述候选汉字与其他候选汉字以及所述候选词语中至少之一之间的构词关系;
基于所述共现关系计算得到每两个所述候选汉字之间的汉字间构词紧密度,其中,每两个所述候选汉字之间的所述汉字间构词紧密度用于描述每两个所述候选汉字在进行构词时的相关性;
基于所述共现关系计算得到每个所述候选汉字与每个所述候选词语之间的字词间构词紧密度,其中,所述字词间构词紧密度用于描述所述字词间构词紧密度对应的所述候选汉字与所述候选词语在进行构词时的相关性。
可选地,如前述的方法,所述通过确定每个所述候选词语中包括的所述候选汉字,来确定所述目标词库对应的共现关系包括以下至少之一:
通过确定每个所述候选词语中包括的所述候选汉字,在所有所述候选汉字中,确定与第一汉字共同参与构词的所有第二汉字,其中,所述第一汉字为所有所述候选汉字中的任一汉字;
对于每个所述第二汉字,确定所述第一汉字与所述第二汉字共同参与构词所得到的所有第一词语的个数;
确定所述第一汉字参与构词所得到的所有第二词语;
确定所有所述第二词语的总数。
可选地,如前述的方法,所述基于所述共现关系计算得到每两个所述候选汉字之间的汉字间构词紧密度包括:
基于所述共现关系,在所有所述候选汉字中,确定与第三汉字共同参与构词的所有第四汉字,以及与第五汉字共同参与构词的所有第六汉字,其中,所述第五汉字为所有所述候选汉字中异于所述第三汉字的汉字;
确定所述第三汉字与所述第五汉字共同参与构词所得到的词语的第一数量;
确定所述第五汉字参与构词所得到的词语的第二数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110636673.6/2.html,转载请声明来源钻瓜专利网。





