[发明专利]基于贝叶斯网络的同义词判断方法及其装置在审
申请号: | 202210614905.2 | 申请日: | 2022-06-01 |
公开(公告)号: | CN115526167A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 彭树远;才华 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 臧霁晨;陈岚 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 网络 同义词 判断 方法 及其 装置 | ||
1.一种基于贝叶斯网络的同义词判断方法,其特征在于,包括:
数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;
贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及
同义词判断步骤,基于所述同义词概率进行同义词判断。
2.如权利要求1所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:
收集主题词;
对于所述主题词进行特征提取,获得各个主题词的特征变量;
根据所述主题词的特征变量,计算得到主题词对间的相同特征的规定的相似度;
将所述主题词对间的相同特征的规定的相似度离散化,得到主题词对间的相似度级别;以及
对于主题词对间标注主题词对间的同义词的概率,将所述主题词对间的相似度级别以及所述主题词对间的同义词的概率作为训练样本集,基于所述训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络模型。
3.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述规定的相似度是以下的任意一种:
余弦相似度、Jaccard相似度、对数似然相似度。
4.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,根据所述训练样本集使用规定的学习算法对网络结构进行学习得到贝叶斯网络模型包括:
根据训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络结构的有向无环图;以及
采用对所述训练样本集中的训练样本进行计数的方法得到各节点参数。
5.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,
所述规定的学习算法为采用使用基于依赖性统计分析的学习算法或者基于评分搜索的学习算法。
6.如权利要求1所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述特征变量包括:
用于表示组成词的字符和字符的次序以及属性的单独词特征;
用于表示文本中待消歧词周边的词特征的上下文特征;以及
用于表示待消歧词所在文本的结构化信息的文本标签特征。
7.如权利要求6所述的基于贝叶斯网络的同义词判断方法,其特征在于,通过以下任意一种方法提取所述上下文特征:
词频次、TF-IDF权重、互信息以及N-Gram。
8.如权利要求6所述的基于贝叶斯网络的同义词判断方法,其特征在于,通过以下任意一种方法提取所述文本标签特征:
词频次、TF-IDF权重、互信息以及N-Gram。
9.如权利要求5所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述规定的算法为以下的任意一种算法:
PC算法、TPDA算法、MDL算法以及K2算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210614905.2/1.html,转载请声明来源钻瓜专利网。