[发明专利]基于本体的工程数据关键字检索方法在审
申请号: | 202110908317.5 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113626643A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 刘木强;张徵;杨卫东 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/835 | 分类号: | G06F16/835;G06F16/838;G06F16/81;G06F16/903;G06F16/9038;G06F40/30 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 本体 工程 数据 关键字 检索 方法 | ||
1.一种基于本体的工程数据关键字检索方法,用于检索工程,数据文档,其特征在于,包括以下步骤:
步骤S1,引入工程数据的领域本体和工程数据术语表,并对所述工程数据术语表进行倒排索引生成倒排索引表,所述领域本体包括多个概念;
步骤S2,对所述工程数据中的若干类文档进行工具处理,提取文本信息并建立XML快照,对所述XML快照进行所述倒排索引并构建快照统计表;
步骤S3,基于关键字和本体概念的匹配规则,对用户提出的关键字查询命令,通过执行引擎采用所述倒排索引表将所述关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;
步骤S4,基于倒排索引表获得与所述概念拓展集相关的所述XML快照,构建排序模型,并由所述排序模型基于所述快照统计表的数据计算与所述概念拓展集相关的所述XML快照的相关度得分;
步骤S5,对所述相关度得分进行排序,找到每个所述XML快照对应的所述若干类文档,作为查询结果集返回给用户,
其中,所述排序模型基于语义匹配的基础以及所述匹配规则构建,
所述领域本体为相关领域中公认的概念集,
所述工程数据术语表为所述领域本体的每一个概念所包含的行业术语的集合。
2.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:
其中,所述领域本体基于RDF Schema图以及扩展RDF的OWL本体描述语言来完成,
所述领域本体包括相关领域词汇的基本术语、关系以及就与所述基本术语和关系构成的规则定义,
所述领域本体基于概念、属性以及值描述。
3.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:
其中,所述XML快照为对所述若干类文档处理后得到一个标注了语义的XML文件,
所述XML快照的建立过程为:
将所述若干类文档转化为文本流,并对所述文本流进行分词,去除掉停用词;
将所述分词与所述倒排索引表中的术语词进行匹配,若匹配成功,则标注为对应概念的XML标签。
4.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:
其中,查询的关键字与所述本体概念的匹配程度为:
式中,Q={k1,...,kn}为所述关键字查询,所述领域本体中所有的概念集合为C={c1,...,cm},ci为所述概念集合中的一个概念,cscore为一个所述关键字查询Q的全体关键字与一个概念ci的匹配程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110908317.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置