[发明专利]一种义原的分类方法及装置在审

申请号：	201510137243.4	申请日：	2015-03-26
公开（公告）号：	CN104699819A	公开（公告）日：	2015-06-10
发明（设计）人：	张连超;刘宇;张鹏	申请（专利权）人：	浪潮集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	济南信达专利事务所有限公司 37100	代理人：	李世喆
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据处理技术领域，特别涉及一种义原的分类方法及装置。

背景技术

在数据挖掘领域，图形图像识别、语音识别、文本推荐等领域已经有比较成熟的解决方案，但是很多技术仍然在不断的发展和创新中，其中，在数据挖掘的义原处理是一个比较难的瓶颈。

图像、声波、文档等等都是由多维组成的复杂信息，相对容易的从相同及相似信息特征中挖掘出数据之间的联系。比如图像识别中五官的定位可以通过模式识别将人脸准确的从图像中提取出来，声波中可以根据频率音色等音频特征来区分不同的人，文档中出现某些关键词我们可以认为是广告进而进行拦截。而自然语言的词语之间存在非常复杂的关系，如同义、对义、反义、整体、部分以及上下位关系等，单单的一个义原是很难表达其含义，甚至连人类在面对这样的义原也会觉得匪夷所思，无法揣摩其中的含义。如何将义原按照已有的类别进行分类，在现有技术中还没有较好的解决方案。

发明内容

有鉴于此，本发明提供了一种义原的分类方法及装置，能够将义原进行分类。

一方面，本发明提供了一种义原的分类方法，包括：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库，还包括：

S1：获取待分类的义原；

S2：获取每个待分类的义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境；

S3：计算每个待分类的义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率；

S4：将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前待分类的义原与当前原始义原属于同一个类别。

进一步地，所述S2中，所述获取每个待分类的义原在所述语料库中所在的语境，包括：

A1：获取待分类的义原在所述语料库中的位置；

A2：分别获取当前待分类的义原的当前位置的前面第二预设值个前方义原，及当前待分类的义原的当前位置的后面第二预设值个后方义原；

A3：将获取的第二预设值个前方义原和第二预设值个后方义原作为当前待分类的义原在所述语料库中所在的语境；

所述S2中，所述获取每个原始义原在所述语料库中所在的语境，包括：