[发明专利]基于贝叶斯网络的同义词判断方法及其装置在审
申请号: | 202210614905.2 | 申请日: | 2022-06-01 |
公开(公告)号: | CN115526167A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 彭树远;才华 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 臧霁晨;陈岚 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 网络 同义词 判断 方法 及其 装置 | ||
本发明涉及一种基于贝叶斯网络的同义词判断方法及其装置。该方法包括:数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及同义词判断步骤,基于所述同义词概率进行同义词判断。
技术领域
本发明涉及计算机技术,具体地涉及一种基于贝叶斯网络的同义词判断方法以及基于贝叶斯网络的同义词判断装置。
背景技术
在科技情报分析工作中,需要对科技文献中的主题、人名、作者单位等知识实体进行抽取,由于知识实体间常出现同义词,需要人工比对,使图数据库构建常常花费很长时间。上述人工比对的过程即为共指消解,其旨在识别指向同一实体的不同表述,是一个NP-hard问题(NP-hard,指所有NP问题都能在多项式时间复杂度内归遇到的问题),对知识图谱构建、语义搜索、知识问答、推荐系统等应用均有重要的意义。
现有的共指消解方法主要基于预训练语言模型,主要分为单词特征提取、指称词特征提取、指称词判断、共指关系预测四个阶段。在上述方法中的关键阶段是通过所生成的词向量判断词对的相关度,其效果完全取决于预训练语言模型的训练效果,具有很大的不确定性。具体地,例如存在以下缺点:
预训练模型是生成词向量的基础,而目前的主要预训练模型(如BERT、GPT-2等)是基于通用领域语料训练而得到。科技文献中存在大量不同领域内的专业词汇,以及人名、作者单位等专有名词,现有的预训练语言模型难以有效区分;
预训练模型可以通过再次预训练和微调的方式提升其在垂直领域的辨识度,但该过程需要大量计算资源和语料库资源;
通过预训练模型得到词向量后即能够判断词对是否为同义词,但对结果的解释性较差,模型效果优化改进的方向、方法都不明确,这导致预训练模型在垂直领域的针对性优化效果具有很大不确定性。
发明内容
鉴于上述问题,本发明旨在提出一种能够区分专用名词并且能够节省计算资源和语料库资源的基于贝叶斯网络的同义词判断方法以及基于贝叶斯网络的同义词判断装置。
本发明一方面的基于贝叶斯网络的同义词判断方法包括:
数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;
贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及
同义词判断步骤,基于所述同义词概率进行同义词判断。
可选地,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:
收集主题词;
对于所述主题词进行特征提取,获得各个主题词的特征变量;
根据所述主题词的特征变量,计算得到主题词对间的相同特征的规定的相似度;
将所述主题词对间的相同特征的规定的相似度离散化,得到主题词对间的相似度级别;以及
对于主题词对间标注主题词对间的同义词的概率,将所述主题词对间的相似度级别以及所述主题词对间的同义词的概率作为训练样本集,根据所述训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络模型。
可选地,所述规定的相似度是以下的任意一种:
余弦相似度、Jaccard相似度、对数似然相似度。
可选地,根据所述训练样本集使用规定的学习算法对网络结构进行学习得到贝叶斯网络模型包括:
根据训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络结构的有向无环图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210614905.2/2.html,转载请声明来源钻瓜专利网。