[发明专利]基于本体的工程数据关键字检索方法在审
申请号: | 202110908317.5 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113626643A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 刘木强;张徵;杨卫东 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/835 | 分类号: | G06F16/835;G06F16/838;G06F16/81;G06F16/903;G06F16/9038;G06F40/30 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 本体 工程 数据 关键字 检索 方法 | ||
本发明提供一种基于本体的工程数据关键字检索方法,其特征在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据术语表,对工程数据术语表进行倒排索引生成倒排索引表;步骤S2,将工程数据中的若干类文档处理为XML快照并进行倒排索引构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用户查询的关键字,通过执行引擎采用倒排索引表将关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照,构建排序模型,由排序模型基于快照统计表的数据计算相关度得分;步骤S5,对相关度得分进行排序,找到每个XML快照对应的若干类文档,作为查询结果集返回给用户。
技术领域
本发明属于数据检索技术领域,涉及一种基于本体的工程数据关 键字检索方法。
背景技术
企业工程数据广泛存在于当今的各种生产制造行业。它的种类很 多,例如对于飞行制造领域,工程数据包含了航材零部件参数、几何 造型数据、飞行训练数据、维修检查数据、各种图文档及表格等。据 统计,仅仅一个飞机引擎,就有近万份设计文档[1]。对这些大量而复 杂异构的数据的管理和控制是亟待解决的重要问题,因而衍生出了产 品数据管理(PDM)等相关的产品和技术。
在工程数据的管理中,因为海量文档的存在,查询成为最重要的 一个环节。传统的工程数据查询处理,用户的查询请求通常以关键词 的形式出现。然而,传统的信息检索领域的关键字处理技术通常利用 简单的基于词根的匹配法则,计算关键词和文档索引词集合之间的相 似度。对于工程数据,这会带来几个问题:(1)大量的工程数据并非 形如网页的纯文本文档,存在很多由计算机辅助设计(CAD)、辅助 制造(CAM)带来的pdf、office表格等类型的文档;(2)工程数据 领域具有自己独特的专业术语,这些术语和日常用词区别较大,传统 的信息检索方法完全忽略这些关键字术语间蕴含的语义。例如,关键 字“spring pivot shaft”在工程数据领域表达的是完整的“弹簧回转轴”这 一物件,传统检索方法对每个词单独处理,且极可能造成单词的语义 混淆。(3)经验表明,传统的工程数据检索方法效果差,给工程设计 人员造成的时间损失非常巨大。
具体来说,传统的工程数据检索领域存在的一些检索方法概括起 来,主要可以分为两类:一类是沿用传统的网页关键字检索技术[3][4], 这种技术本质上是一种基于统计学的算法。这种方法无法理解用户的 查询意图,经常出现与用户查询请求相关的文档由于语义混淆或用词 不同而无法被检索出来的情况;另一类是采用自然语言分析工具 [5][6],构建字串样板,运用机器学习的方法,从工程数据中分析各个 句子的组成成分,从而将各个语言成分归纳到各个领域知识上。这种 做法的弊端在于,目前自然语言分析工具只能处理很有限主题的句子 分析,而工程数据覆盖的数据主题非常多,因此机器学习不足以应对 该领域下大量文档的句法解析。
上述参考文献为:
[1]Marsh,J.R.,1997,The Capture and Utilization of Experience inEngineering Design,PhD Thesis,Cambridge University,UK.
[2]McMahon C.A.,Lowe,A.,Culley,S.J.,Corderoy,M.,Crossland,R., Shah,T.,and Stewart,D.,2004,Waypoint:An Integrated Search and Retrieval Systemfor Engineering Documents,J.Comput.and Info.Sci. in Eng.,4(4),pp.329-338.
[3]Salton G,1991,Developments in automatic text retrieval,Science,vol.253,pp.974--980.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110908317.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置