[发明专利]基于新统计的词汇语义相似度求解算法在审

专利信息
申请号: 201610562017.5 申请日: 2016-07-18
公开(公告)号: CN106610935A 公开(公告)日: 2017-05-03
发明(设计)人: 金平艳;胡成华 申请(专利权)人: 四川用联信息技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 610054 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 统计 词汇 语义 相似 求解 算法
【说明书】:

技术领域

发明涉及语义网络技术领域,具体涉及基于新统计的词汇语义相似度求解算法。

背景技术

21世纪以来,全球互联网进入了一个高速发展的新时期,各种新技术不断涌现。作为联系计算机与人之间重要的自然语言处理技术也快速发展中。传统的语义相关度计算方法大致分为两类:基于语义词典的语义相关度计算方法以及基于语料库的语义相关度计算方法;语义相关度计算是自然语言处理领域非常重要的一项技术,它的用途很广泛,是自然语言处理领域一项基础性的研究工作。例如要识别“这个苹果很好吃”,通过语料库检索得到相似的翻译有“这个梨子很好吃”、“这个人很好吃”。这里涉及一个歧义问题,前一个“好”的意思是很好,读音为三声,后一个“好”为四声,所以第一个翻译更合适。为了处理未登录词的语义相似度问题,同时鉴于词汇语义相似度计算在自然语言处理中的重要作用,本发明提出了一种基于新统计的词汇语义相似度求解算法。

发明内容

针对于词语中的相似度问题,本发明提出了基于新统计的词汇语义相似度求解算法。

为了解决上述问题,本发明是通过以下技术方案实现的:

步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库。

步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。

步骤3:在统计模块中判断其(c1,c2)是否为登录词。

步骤4:如果为登录词,运用特定算法g1(c1,c2)实现词汇之间相似度的求解。

步骤5:如果为未登录词,运用相关特定算法g2(c1,c2)实现词汇之间相似度的求解。

本发明的有益效果是:

1、比较传统的语义分析方法,此计算得出的精确度更高。

2、在消除歧义方面有更好的效果。

3、更符合用户需求。

4、对未登录词具有更好的识别和判定效果。

附图说明

图1为基于新统计的词汇语义相似度求解算法的结构流程图。

具体实施方式

为解决词语(c1,c2)之间语义相似度问题,将结合图1对本发明进行了详细说明,其具体实施步骤如下:

步骤1:初始化统计方法模块,这里可以是《词语字典》、《词林》、《知网》、《百度百科》等等语料库。

步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。

步骤3:在统计模块中判断其是否为登录词。其具体判定过程如下:

步骤3.1)先计算出(c1,c2)在选定的语料库中的权重值w(c1)、w(c2),这里我们根据其上下文词分别与目标词c1、c2共现的频数nf(c1)、nf(c2),上下文词的根据约束条件查找,例如,在汉语中,具有比较强的上下文约束关系的词性对有:形容词-名词、动词-名词、名词-动词、形容词-动词等等。当满足下列条件即为登录词:

(1)nf(c1)>α

(2)nf(c2)>α

α为领域专家给定的一个权重阈值,当频数nf(c1)、nf(c2)都满足用户给定的条件,即两词语(c1,c2)都为登录词,当条件1成立条件2不成立时,则词语c1为登录词,依此,同理可知其他情况。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610562017.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top