[发明专利]一种基于图模型的词义消歧方法和系统有效
| 申请号: | 201811503355.7 | 申请日: | 2018-12-10 |
| 公开(公告)号: | CN109359303B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 孟凡擎;燕孝飞;张强;陈文平;鹿文鹏 | 申请(专利权)人: | 枣庄学院 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/31;G06F40/211;G06F40/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
| 地址: | 277000 *** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模型 词义 方法 系统 | ||
1.一种基于图模型的词义消歧方法,其特征在于,包括如下步骤:
S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;具体步骤如下:
S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;基于词向量和知识库的词语相似度计算算法具体如下:
S20101、判断给定的是词语还是短语:
①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;
②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:
其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;
S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ1;
S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;
S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:
simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj));
式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;
S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和wj的相似度,公式如下:
simbn(wi,wj)=α*1/(δ1path)+(1-α)simlap(wi,wj);
其中,path是wi和wj之间的最短路径;δ1用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;
S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:
simfinal(wi,wj)=β*simvec+(1-β)*simbn;
其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数β是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;
S20107、返回相似度simfinal;
S202、基于词向量的相似度计算:使用Google的word2vec工具包在中文语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
S203、基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度;
S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;
S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄学院,未经枣庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811503355.7/1.html,转载请声明来源钻瓜专利网。





