[发明专利]一种语义搜索方法及系统在审
申请号: | 201410537867.0 | 申请日: | 2014-10-13 |
公开(公告)号: | CN104281693A | 公开(公告)日: | 2015-01-14 |
发明(设计)人: | 贾岩 | 申请(专利权)人: | 安徽华贞信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 程笃庆;黄乐瑜 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 搜索 方法 系统 | ||
1.一种语义搜索方法,其特征在于,包括以下步骤:
建立语义本体库;
根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
根据语义本体库进行行业相关数据探测和抓取。
2.根据权利要求1所述的语义搜索方法,其特征在于,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
3.根据权利要求1所述的语义搜索方法,其特征在于,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
4.根据权利要求1所述的语义搜索方法,其特征在于,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
5.根据权利要求4所述的语义搜索方法,其特征在于,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
6.一种语义搜索系统,其特征在于,包括:
建立模块,用于建立语义本体库;
分析模块,与所述建立模块连接,用于根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;
探测和抓取模块,与所述分析模块连接,用于根据语义本体库进行行业相关数据探测和抓取。
7.根据权利要求6所述的语义搜索系统,其特征在于,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。
8.根据权利要求6所述的语义搜索系统,其特征在于,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。
9.根据权利要求6所述的语义搜索系统,其特征在于,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。
10.根据权利要求9所述的语义搜索系统,其特征在于,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司,未经安徽华贞信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410537867.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:杠杆式下摆机
- 下一篇:一种切割配电柜板材的切割装置