[发明专利]基于融合策略的中文词语相似度计算方法在审

专利信息
申请号: 201910236195.2 申请日: 2019-03-27
公开(公告)号: CN109960786A 公开(公告)日: 2019-07-02
发明(设计)人: 吕学强;董志安;游新冬 申请(专利权)人: 北京信息科技大学
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合策略 同义词词林 相似度计算 中文词语 词语相似度 维基百科 语料 词语 同义词 计算相似度 综合考虑 系数和 相似度 中文 应用
【说明书】:

发明涉及一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。本发明提供的基于融合策略的中文词语相似度计算方法,融合策略综合考虑了知网、同义词词林、word2vec和百度词典,形成了策略之间的优势互补,计算得出的斯皮尔曼相关系数和皮尔逊相关系数比其他方法高,提高了词语相似度计算结果的准确性,可以很好地满足实际应用的需要。

技术领域

本发明属于文本处理技术领域,具体涉及一种基于融合策略的中文词语相似度计算方法。

背景技术

词语相似度计算是中文信息处理的基础研究课题,其在自然语言处理、自动问答、知识图谱、文本分类、文本聚类、信息检索、信息抽取、词义排歧和机器翻译等领域有着广泛而深入的应用,因而被越来越多的学者研究和关注。

目前的词语相似度计算可以分为三种:基于已有的知识本体的方法、大规模语料库统计的方法和基于语料库的词嵌入方法。第一种基于知识本体的方法利用词语在知识树中的层次、密度以及词语间的距离来计算词语之间的相似度。第二种词语相似度的计算方法是基于大规模语料库的统计。该方法假设相似的词也出现在相似的上下文中,即利用词语的相关性来计算词语的相似性,通过训练大规模的语料库来获得每个词语相关的上下文向量的表示,然后利用这些向量之间的相似度作为两个词之间的相似度。第三种词语相似度的计算方法是基于语料库的词嵌入方法。该方法利用神经网络训练大规模语料库,从而得到词语在空间上的分布式表示,然后利用余弦计算词语之间的相似度。

基于知识本体的方法的缺点是受语义词典的限制,不能处理未登录(oov)词,而且在本体构建的过程中词语的分类不当,也会导致词语的相似度计算出现误差;基于大规模语料库统计的方法以及词嵌入的方法受限于训练所用的语料库的规模,而且计算量比较大,计算速度较慢,受语料稀疏和语料中的噪声的干扰比较大。

与本领域现有技术相关的知识内容介绍如下:

HowNet(即知网)是一个揭示概念与概念之间的关系以及概念所具有的属性之间的关系为基本内容的常识知识库,其中富含丰富的词汇语义知识,是自然语言处理领域研究的基础性资源。HowNet中包含“概念”、“义原”、“义项”、“知识描述语言”等概念,其中,“概念”是对词语的一种描述,一个词语可以有多个“概念”(也即多义词),“概念”通过知识描述语言(KDML)来描述,知识描述语言描述“概念”的表达式称为“义项”,知识描述语言所用的词汇叫做义原,义原是描述“概念”的最小基本单位。义原之间存在着复杂的关系,包括上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系等8种关系,通过这8种关系,把义原组成了一个树状层次结构(如图1),每一个义原都是这个树状结构中的一个节点,树状的义原层次结构构成了词语相似度计算的基础。

《同义词词林》是梅家驹等人于1983年编纂而成,这本词典中不仅包含了同义词语,也包含了一定数量的同类词。由于《同义词词林》的时间比较久远,而且之后一直没有更新,对此,哈尔滨工业大学信息检索研究室投入了大量的人力和物力,完成了一部新的《哈工大信息检索研究室同义词词林扩展版》,剔除了14706个罕用词,为了适应时代的发展,又加入了一些新词,最终包含了77343条词语。这些词语被划分成了12个大类,97个种类和1400个小类,小类下面又进一步划分为词群和原子词群,这样,同义词词林就构成了一个五层的树状结构,如图2所示。

与知网的义原树状层次结构不同,知网中的每个节点都代表着一个义原,而在同义词词林中,叶子节点才是一个个的词条,上面的四层都是抽象的分类。词林根据词条所属的类别,对每个词条进行了编码,如表1所示。

表1同义词词林中词语的编码结构

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910236195.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top