[发明专利]一种义原的分类方法及装置在审
| 申请号: | 201510137243.4 | 申请日: | 2015-03-26 |
| 公开(公告)号: | CN104699819A | 公开(公告)日: | 2015-06-10 |
| 发明(设计)人: | 张连超;刘宇;张鹏 | 申请(专利权)人: | 浪潮集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分类 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,特别涉及一种义原的分类方法及装置。
背景技术
在数据挖掘领域,图形图像识别、语音识别、文本推荐等领域已经有比较成熟的解决方案,但是很多技术仍然在不断的发展和创新中,其中,在数据挖掘的义原处理是一个比较难的瓶颈。
图像、声波、文档等等都是由多维组成的复杂信息,相对容易的从相同及相似信息特征中挖掘出数据之间的联系。比如图像识别中五官的定位可以通过模式识别将人脸准确的从图像中提取出来,声波中可以根据频率音色等音频特征来区分不同的人,文档中出现某些关键词我们可以认为是广告进而进行拦截。而自然语言的词语之间存在非常复杂的关系,如同义、对义、反义、整体、部分以及上下位关系等,单单的一个义原是很难表达其含义,甚至连人类在面对这样的义原也会觉得匪夷所思,无法揣摩其中的含义。如何将义原按照已有的类别进行分类,在现有技术中还没有较好的解决方案。
发明内容
有鉴于此,本发明提供了一种义原的分类方法及装置,能够将义原进行分类。
一方面,本发明提供了一种义原的分类方法,包括:预先设置多个义原的类别,每个类别对应多个原始义原,预先设置语料库,还包括:
S1:获取待分类的义原;
S2:获取每个待分类的义原在所述语料库中所在的语境,及每个原始义原在所述语料库中所在的语境;
S3:计算每个待分类的义原在每个对应的语境下出现的第一条件概率,及每个原始义原在每个对应的语境下出现的第二条件概率;
S4:将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较,当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时,判定当前待分类的义原与当前原始义原属于同一个类别。
进一步地,所述S2中,所述获取每个待分类的义原在所述语料库中所在的语境,包括:
A1:获取待分类的义原在所述语料库中的位置;
A2:分别获取当前待分类的义原的当前位置的前面第二预设值个前方义原,及当前待分类的义原的当前位置的后面第二预设值个后方义原;
A3:将获取的第二预设值个前方义原和第二预设值个后方义原作为当前待分类的义原在所述语料库中所在的语境;
所述S2中,所述获取每个原始义原在所述语料库中所在的语境,包括:
B1:获取原始义原在所述语料库中的位置;
B2:分别获取当前原始义原的当前位置的前面第二预设值个前方义原,及当前原始义原的当前位置的后面第二预设值个后方义原;
B3:将获取的第二预设值个前方义原和第二预设值个后方义原作为当前原始义原在所述语料库中所在的语境;
其中,所述第二预设值的取值范围是[1,5],所述第二预设值为整数。
进一步地,所述S3中,所述计算每个待分类的义原在每个对应的语境下出现的第一条件概率,包括:
根据公式一计算当前待分类的义原在当前对应的语境下出现的第一条件概率,其中,公式一为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510137243.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地图点要素注记自动配置方法
- 下一篇:一种数据处理方法及装置





