[发明专利]一种茶学领域虚拟本体建模方法有效
申请号: | 201611087353.5 | 申请日: | 2016-12-01 |
公开(公告)号: | CN106599117B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李绍稳;刘超;耿凡凡;张筱丹;徐济成;许高建;李景霞;杨阳;沈杰 | 申请(专利权)人: | 安徽农业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 11350 北京科亿知识产权代理事务所(普通合伙) | 代理人: | 汤东凤<国际申请>=<国际公布>=<进入 |
地址: | 230036 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 虚拟 本体 建模 方法 | ||
1.一种茶学领域虚拟本体建模方法,其特征是本建模方法基于云计算的MapReduce框架,本方法包括1个或多个Map任务、以及一个Reduce任务;
本茶学领域虚拟本体建模方法的步骤包括:
1)先由Map任务对茶学领域本体模块进行虚拟抽取,Map任务的个数由所涉及到茶学领域本体的个数确定;Map任务开展茶学领域本体模块虚拟抽取是基于社团划分:首先根据需求对茶学领域本体进行社团抽取,将与需求联系更紧密的茶学领域本体知识划分到一个本体社团中;然后对本体社团内的知识与需求进行相关的局部性判断,获得具有非局部性的本体知识;
局部性判断的方法为:若本体中的某一概念或概念间关系的删除,不能改变用户需求的意义,则该概念或关系具有关于用户需求局部性,否则,该概念或关系具有关于用户需求的非局部性;
2)由Reduce任务对虚拟抽取出的茶学领域本体模块进行映射,最终生成茶学领域虚拟本体;
Reduce任务对茶学领域本体模块进行映射是基于茶学同义词词林的;先构建茶学同义词词林;然后以同义词词林为基础,计算虚拟抽取出的茶学领域本体模块概念间的相似度,实现茶学本体模块的映射,生成茶学虚拟本体模块;
2.1)构建茶学同义词词林的步骤包括:
步骤一:确定茶学同义词词林的收录范围;
步骤二:通过文献、书籍、网络收集茶学领域词汇;
步骤三:对收集的茶学领域词汇按词义进行分类;
步骤四:根据同义词词林编码规则,对茶学领域词汇进行编码,形成茶学同义词词林;
步骤五:邀请茶学领域专家对茶学同义词词林进行评估校正;
2.2)计算茶学领域本体模块的概念间的相似度,并设定阈值,
获得相似度大于阈值的概念对;然后对该概念对对应的茶学领域本体模块增加等价属性,即得到茶学领域本体模块的映射;
计算茶学领域本体模块概念间的相似度的方法为:
c1和c2是分属两个茶学领域本体模块的概念,i表示c1和c2编码开始出现不同的层数,N是第i层分支上结点的总数,D是c1和c2的在同义词词林中的距离。
2.根据权利要求1所述的建模方法,其特征是本建模方法中所涉及的茶学领域虚拟本体知识均储存在HBase数据库中,由基于HBase的茶学领域虚拟本体存储模型实现;
建立基于HBase的茶学领域虚拟本体存储模型的方法为:
RDF三元组是本体的基础结构;被表示成OWL的本体转换成RDF三元组来表示;一个RDF三元组被定义为<s,p,o>,其中:s表示主语,p表示谓语,o表示属性;s和o是本体中的概念,看做是结点;p是本体中概念间的属性,看做是结点间的连线;
建立基于HBase的茶学领域虚拟本体存储模型,是通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组;两个HBase表格分别为SR_P_O表和OR_P_S表,如表1、表2所示:
表1 SR_P_O表存储结构
表2 OR_P_R表存储结构
SR_P_O表中:行键是由s和r组成的,其中:
r表示抽取茶学领域本体模块的所依据的需求;虚拟抽取出的茶学领域本体模块是一个按需所取的知识集合;在访问表格中的知识时,需要首先判断知识是否与需求相关;如果将需求作为属性放入列族,则需要进行全表扫描才能判断知识是否与需求相关;
SR_P_O表中的列族内部分成了两列,其中:
一列是Name,用于存放RDF三元组的谓语,即本体属性的名字,
另外一列是Value,用于存放RDF三元组的宾语,即本体属性的值;
sn是本体中RDF三元组的主语,pn是本体中RDF三元组的谓语,on是本体中RDF三元组的属性,rn表示抽取茶学领域本体模块的所依据的需求。
3.根据权利要求1所述的建模方法,其特征是所述步骤2.1)中的步骤四中,同义词词林编码规则是以哈工大版的同义词词林编码规则为基础;
哈工大版本的同义词词林收录了大约七万个常用词汇,这些词汇在人民日报语料库中出现频率都不低于3;该版本共分成12个大类,94个中类,1428个小类,每个小类中又被分为若干个词群;
根据分类,同义词词林为每个词汇设置了一个8位的编码,其中第一位代表词汇所属大类,用一位大写英文字母表示;第二位表示词汇所属中类,用一位小写英文字母表示;第三位、第四位代表词汇所属小类,用两位阿拉伯数字表示;第五位代表词群,用一位小写英文字母表示;第六位、第七位代表词群中的词汇,用两位阿拉伯字母表示;第八位是标记为,用符号=、#、@表示,符号=表示编码表示的是一组同义词,符号#表示编码表示的是一组相关词汇,但不是同义词,符号@表示编码表示的是既不同义,又不相关的词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611087353.5/1.html,转载请声明来源钻瓜专利网。