[发明专利]一种基于图模型的词义消歧方法和系统有效
| 申请号: | 201811503355.7 | 申请日: | 2018-12-10 |
| 公开(公告)号: | CN109359303B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 孟凡擎;燕孝飞;张强;陈文平;鹿文鹏 | 申请(专利权)人: | 枣庄学院 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/31;G06F40/211;G06F40/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
| 地址: | 277000 *** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模型 词义 方法 系统 | ||
本发明公开了一种基于图模型的词义消歧方法和系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能,采用的技术方案为:①一种基于图模型的词义消歧方法,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图;S4、词义的正确选择。②一种基于图模型的词义消歧系统,该系统包括上下文知识提取单元、相似度计算单元、消歧图构建单元以及词义正确选择单元。
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种基于图模型的词义消歧方法和系统。
背景技术
词义消歧是指根据歧义词所处的特定上下文环境确定其具体词义,它是自然语言处理领域的一项基础性研究,对机器翻译、信息抽取、信息检索、文本分类、情感分析等上层应用有着直接影响。无论是中文还是英文等其他西方语言,一词多义的现象是普遍存在的。
传统的基于图模型进行中文词义消歧任务处理的方法主要利用了一种或多种中文知识资源,受知识资源不足问题的困扰,词义消歧性能较低。故如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能是目前急需解决的技术问题。
专利号为CN105893346A的专利文献公开了一种基于依存句法树的图模型词义消歧方法,其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。但是该技术方案利用BabelNet中蕴含的语义关联关系,而不是HowNet中的语义知识;其适用于英文词义消歧工作,但对于中文并不适用,且不能解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。
发明内容
本发明的技术任务是提供一种基于图模型的词义消歧方法和系统,来解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。
本发明的技术任务是按以下方式实现的,一种基于图模型的词义消歧方法,包括如下步骤:
S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;
S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;
S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。
作为优选,所述步骤S2中相似度计算具体步骤如下:
S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;另,考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息;
S202、基于词向量的相似度计算:Sogou全网新闻语料共计1.43GB,使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄学院,未经枣庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811503355.7/2.html,转载请声明来源钻瓜专利网。





