[发明专利]信息分类范例有效

专利信息
申请号: 200680042170.X 申请日: 2006-11-15
公开(公告)号: CN101305370A 公开(公告)日: 2008-11-12
发明(设计)人: 文继荣;孙燕峰;W-Y·马;聂再清;R·蒋 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/00
代理公司: 上海专利商标事务所有限公司 代理人: 陈斌
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 分类 范例
【说明书】:

技术领域

所公开的主题一般涉及数据处理,尤其涉及基于信息的特定特性将信息组 织到分开的分类中。

背景

形成网络的互连计算机可能具有可从中挖掘有用信息的大数据存储库。虽 然存在很多示例,但是一个常见的示例是因特网,其中独立主机的分散结构促 进了巨大量数据的丰富交换。然而,从相对非结构化的源,诸如HTML或其 他类型的文档中挖掘有用信息会是困难的。由于文档的很大程度上的非结构化 特性一般不会按照类型、值、目的等来准备好文档中的信息,因此定位和标识 相关信息通常是不容易的。随着数据量的增加和更新周期的缩短,从这种数据 中提取期望信息变得越来越复杂。

概述

以下提出了本发明的简化概述以向读者提供基本理解。本概述不是本发明 的广泛综述,也没有确定本发明的关键/决定性要素或描绘本发明的范围。其唯 一的目的是以简化的形式提出此处公开的某些概念,作为对以下提出的更详细 描述的序言。

本发明描述了用于将一组源文档分类为可能包括感兴趣的信息和不大可 能包括感兴趣的信息的机制。一些示例具有两个基本分类器。一个将文档分类 成以下三个组之一:可能包含感兴趣的信息;不大可能包含感兴趣的信息;或 需要进一步检查。在许多情况下,这种分类器可被设置成基于根据是否存在至 少一个分类标识符来快速地删去大部分文档不作进一步考虑。

第一分类器也可以搜索文件的片断(例如,通常从分类标识符的附近依照 一组规则提取的一部分)以获取进一步的信息,以便视图标识应该被分类为可 能包含感兴趣的信息的那些文档。

然而,在一些情况中,必须执行更为复杂的分析。由此,第一分类器不能 明确地标识的情况被传递给一特征提取器,该特征提取器提取一组特征(可能 从片断)并形成一特征向量。该特征向量由第二分类器使用来作出更为复杂的 分析,以便确定文档是否可能包含感兴趣的信息。

附图简述

结合附图,能更容易地理解和明白随后的详细描述,其中:

图1是信息分类系统的一个示例的概括功能图;

图2是示例性信息分类系统的更为详细的功能图;

图3是示例性分类系统的流程图;

图4是片断和特征向量创建的功能图示;以及

图5是适用于实现所公开的示例的示例性计算机。

全部附图中采用的相同的参考标号和/或其他参考标号用于标识相同的组 件,除了可能是以其他方式提供的。

详细描述

附图和该详细描述提供了与所公开的主题相关的示例性实现,以便于描述 并仅用作示例性目的,因此不表示构造和/或使用所公开的主题的一种或多种组 件的仅有的形式。此外,虽然该描述阐明了可以被实现为由一个或多个流程图 表示的步骤的一个或多个序列的一个或多个示例性操作,但是可以用其他方式 来实现相同或等价的操作和/或操作序列。

图1在较高的层面上示出了示例性信息分类系统10。该图被设计成从功 能观点示出该系统,而非示出任何具体实现。在系统10中,源文档12可以包 含感兴趣的信息,该信息可能被提取以供将来使用或处理,如进一步处理框14 所示。然而,可能期望首先将文档排序到分类中而非使得所有源文档12都惊 醒进一步处理,其中一种分类具有包含感兴趣的信息的较高的可能性,而另一 种分类具有包含感兴趣的信息的较低的可能性。

图1中,由分类器16执行分类,该分类器16将源文档12标识为或者具 有包含感兴趣的信息的较高的可能性(源文档18),或者具有包含感兴趣的信 息的较低的可能性(源文档20)。

在图1中,源文档12被示为从网络22中存储或检索。然而,这仅是作为 说明示出。如何标识源文档12和如何使其对分类器16可用在很大程度上与本 发明的核心无关。

作为如何可以采用这种系统的一个实际图示,考虑从因特网标识具有感兴 趣的信息的网页的问题。在这样一个图示,网络22于是将是因特网,而源文 档12可以是网页或可以包含或不包含感兴趣的信息的其他文档类型。这种源 文档可以由网络爬虫(web crawler)来检索,或者通过其他方法使其可用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200680042170.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top