[发明专利]基于标准三层分类的网页信息挖掘方法无效
| 申请号: | 201010284119.8 | 申请日: | 2010-09-17 |
| 公开(公告)号: | CN101930477A | 公开(公告)日: | 2010-12-29 |
| 发明(设计)人: | 俞晓华 | 申请(专利权)人: | 无锡诺宝科技发展有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 无锡市大为专利商标事务所 32104 | 代理人: | 殷红梅 |
| 地址: | 214101 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标准 三层 分类 网页 信息 挖掘 方法 | ||
技术领域
本发明涉及网页搜索中一种基于标准三层分类的网页信息挖掘方法,属于互联网物联网信息科技领域。
背景技术
现有对与分类相关的网页技术没有应用标准分类层次或深度,如亚马逊(amazon.com)数据结构层次深度没有标准。阿里巴巴里各类商品的分类也是层次深度不一,没有形成标准,扩展起来较麻烦。如要调整搜索种类等方面,须修改网页代码。类似亚马逊的网页与阿里巴巴的网页,在增加内容类别时也需对网页本身进行修改。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于标准三层分类的网页信息挖掘方法,在增加内容类别时,只对数据库处理即可,而且可以较容易将各子类别整合为一个大系统。
按照本发明提供的技术方案,所述基于标准三层分类的网页信息挖掘方法,将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别,其中,第一层表包括第一层的序列号与第一层类别名称,第二层表包括第二层序列号、第二层类别名称与第一层序列号,第三层表包括第三层序列号、第三层类别名称及第二层序列号、第一层序列号;设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表,在第二层搜索时,搜索索引使用第二层表,在第三层搜索时,搜索索引使用第三层表。
所述第二层表还包括第一层类别名称,所述第三层表还包括第二层类别名称和第一层类别名称。
所述可缩放信息挖掘工具中第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同时显示第一层类别内容。
所述可缩放信息挖掘工具中第三层索引包括第三层类别名称,点击第三层类别名称后显示相应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二层,同时显示第二层类别内容。
本发明的优点是:本发明披露的三层深度的分类技术应用在网页搜索技术中,使结果信息集合有序收敛,较快实现精准搜索。标准的三层分类系统也易于扩展,三个附属表的应用使每一层的结构易于调整,而且不用改变网页代码便可调整搜索范围,增、删搜索种类。
附图说明
图1是本发明所述三个表的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。本发明公开了一种互联网与分类相关的网页信息挖掘方法,应用于对互联网信息的存储与搜索,尤其对于有规则结构层次的内容,如电子商务网站对产品的介绍等。
本发明涉及一种基于标准深度的三层分类体系的数据存贮与挖掘系统。
1)首先将信息对象类别分为三个层次。一般来说,多于三层向上合并,少于三层的加默认上层补足三层。
对象指的是存储的一个个记录,对象类别指的是这些记录的类别。比如对设计相关的记录,第一层类别名即“设计作品”,第二层是“设计作品”下的分类,比如“包装设计”、“企业创意设计”、“建筑设计”、“服装设计”等,第三层是第二层类别下的分类,比如“建筑设计”下课分“室外设计”、“室内设计”等。
多于三层的情况:比如“室内设计”本来还可以分为“厨房设计”、“卧室设计”等,但“室内设计”已到第三层了,“厨房设计”、“卧室设计”就合并到“室内设计”里,不另分了。默认上层可以加与本层同名的层。
2)在数据库中设计三个表对应三层类别,第一层表T1包括第一层的序列号与第一层名称,第二层表T2包括第二层序列号、第二层名称与第一层序列号。第三层表T3包括第三层序列号与名称及第一第二层序列号、名称。T2表可以有T1对应的第一层类别名称,也可以没有;T3表可以有T1、T2对应的第一层类别名称,也可以没有。相应上层的对应序列号必须有。类别名称如前所述,序列号是数据库内给类别名称分配的数字标示。
3)设计可缩放信息挖掘体系,上述三个表在对应各个搜索深度时起辅助作用,在第一层搜索时,搜索索引使用第一层表T1,由于一般来说T1表与T2、T3表内容少很多,T1表的存在可提高整个系统的性能。同理,T2表辅助第二层搜索,供第二层搜索的索引使用。如不设计T1、T2表,其内容在T3表中也有,不过需用一般数据库工程师都知道的“distinct”功能选择,这样的话会加重数据库运算负担,影响系统效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡诺宝科技发展有限公司,未经无锡诺宝科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010284119.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:共用生物识别设备的金融安全防护系统和方法
- 下一篇:一种结构化数据交换方法





