[发明专利]基于新统计的词汇语义相似度求解算法在审

申请号：	201610562017.5	申请日：	2016-07-18
公开（公告）号：	CN106610935A	公开（公告）日：	2017-05-03
发明（设计）人：	金平艳;胡成华	申请（专利权）人：	四川用联信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于统计词汇语义相似求解算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语义网络技术领域，具体涉及基于新统计的词汇语义相似度求解算法。

背景技术

21世纪以来，全球互联网进入了一个高速发展的新时期，各种新技术不断涌现。作为联系计算机与人之间重要的自然语言处理技术也快速发展中。传统的语义相关度计算方法大致分为两类：基于语义词典的语义相关度计算方法以及基于语料库的语义相关度计算方法；语义相关度计算是自然语言处理领域非常重要的一项技术，它的用途很广泛，是自然语言处理领域一项基础性的研究工作。例如要识别“这个苹果很好吃”，通过语料库检索得到相似的翻译有“这个梨子很好吃”、“这个人很好吃”。这里涉及一个歧义问题，前一个“好”的意思是很好，读音为三声，后一个“好”为四声，所以第一个翻译更合适。为了处理未登录词的语义相似度问题，同时鉴于词汇语义相似度计算在自然语言处理中的重要作用，本发明提出了一种基于新统计的词汇语义相似度求解算法。

发明内容

针对于词语中的相似度问题，本发明提出了基于新统计的词汇语义相似度求解算法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库。

步骤2：将待比较词(c₁，c₂)输入初始化统计方法模块中。

步骤3：在统计模块中判断其(c₁，c₂)是否为登录词。

步骤4：如果为登录词，运用特定算法g₁(c₁，c₂)实现词汇之间相似度的求解。

步骤5：如果为未登录词，运用相关特定算法g₂(c₁，c₂)实现词汇之间相似度的求解。

本发明的有益效果是：

1、比较传统的语义分析方法，此计算得出的精确度更高。

2、在消除歧义方面有更好的效果。

3、更符合用户需求。

4、对未登录词具有更好的识别和判定效果。

附图说明

图1为基于新统计的词汇语义相似度求解算法的结构流程图。

具体实施方式

为解决词语(c₁，c₂)之间语义相似度问题，将结合图1对本发明进行了详细说明，其具体实施步骤如下：

步骤1：初始化统计方法模块，这里可以是《词语字典》、《词林》、《知网》、《百度百科》等等语料库。

步骤2：将待比较词(c₁，c₂)输入初始化统计方法模块中。

步骤3：在统计模块中判断其是否为登录词。其具体判定过程如下：

步骤3.1)先计算出(c₁，c₂)在选定的语料库中的权重值w(c₁)、w(c₂)，这里我们根据其上下文词分别与目标词c₁、c₂共现的频数nf(c₁)、nf(c₂)，上下文词的根据约束条件查找，例如，在汉语中，具有比较强的上下文约束关系的词性对有：形容词-名词、动词-名词、名词-动词、形容词-动词等等。当满足下列条件即为登录词：

(1)nf(c₁)＞α

(2)nf(c₂)＞α

α为领域专家给定的一个权重阈值，当频数nf(c₁)、nf(c₂)都满足用户给定的条件，即两词语(c₁，c₂)都为登录词，当条件1成立条件2不成立时，则词语c₁为登录词，依此，同理可知其他情况。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司，未经四川用联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610562017.5/2.html，转载请声明来源钻瓜专利网。

上一篇：智造行业中一种新的语义相似度求解方法
下一篇：一种改进的中文自动分词算法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于新统计的词汇语义相似度求解算法在审

专利文献下载