[发明专利]内容分类有效
申请号: | 201380076169.9 | 申请日: | 2013-05-01 |
公开(公告)号: | CN105164672A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 哈达什·科根;多伦·谢克德;希凡·阿尔巴利·基姆;乔治·福曼 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 严芬;康泉 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 分类 | ||
背景技术
分类系统用于对诸如文档、电子邮件消息和网页之类的数据对象的内容进行分类,并且还用于支持数据对象集合的处理。
附图说明
附图图示出各种示例,并且是说明书的一部分。图示的示例只是示例,而并不限制权利要求的范围。在整个附图中,相同的参考标号表示类似的但不必是相同的元件。
图1是根据各种示例的系统的框图;
图2是图示根据各种示例的数据对象100的要素的示意图;
图3是根据各种示例的系统的框图;
图4是根据各种示例的方法的流程图;
图5是根据各种示例的系统的框图;以及
图6是根据各种示例的方法的流程图。
在整个附图中,相同的部件标号表示相同或者类似的部件。
具体实施方式
组织或企业遇到的一个难题是逐渐增大量的数据对象正在被接收、创建和存储。随着量增大,在这些存储的数据对象中查找相关的数据对象变得日益困难。计算机技术的进步给用户提供了众多的选择来创建数据对象,比如电子文件和文档。例如,许多常见的、可在典型的个人计算机上执行的软件应用能够使用户生成各种类型有用的数据对象。数据对象还可以从远程网络获得、从诸如扫描仪或者数字相机之类的图像获取设备获得,或者他们可以从数据存储设备读入存储器(例如,以文件的形式)。现代的计算机系统使用户能够以电的方式获得或者创建海量的在大小、主题和格式方面变化的数据对象。这样的数据对象例如可以放置在个人计算机上、文件服务器上、网络附加存储器或者存储区域网路上、或者其他存储介质上。
通常,内容分类涉及将比如文档或者文件的数据对象分配到与之有共性的一组或多组或者一类或多类文档中——通常是因为有共享的主题、概念、构思和主题领域。
在某些系统中,可能会提供内容分类,以给数据对象,比如文档、电子邮件消息、网页或者其他数据对象,提供类别分配。在某些系统中,可能会提供内容分类,以能够基于数据对象各自的内容对它们进行处理。内容分类的一个难点是,所分配的类别可能太笼统。对内容分类的典型问题是,所用的类别不足以将数据对象与其他数据对象区分开。例如,“教育”类不足以区分学前图书、大学教材或者文化广告夜校课程,所有这些都可能被有效地描述为在教育的主题下。
在某些系统中,内容分类可能是手动进行的。手动分类的典型问题是,它是一个漫长的活动,并且要求具有内容所在领域的知识才能准确分类。因为资源的限制,手动分类通常只用于分配非常高的、抽象级别的分类。手动分类的另一个问题是,经常会出现两个人对数据对象的分类决定不同,则减少了分类的可用性,因为不能依赖常用的分类词语(term)进行检索和类似的活动。
在某些系统中,可以由计算机系统自动执行内容分类。自动分类的典型问题是,可能会误导系统,而选择了不恰当或者无意义的分类。一个问题是,内容的作者可能会在许多数据对象中使用相同的词语,即使这些数据对象可能是关于不同的主题。这会导致作者的数据对象被给予与在同一个领域内的其他数据对象不同的类别。结果,可能导致按作者分类而不是按数据对象的内容分类。
相应地,开发了本文描述的各种示例,以提供一种能够从具有现有类别的数据对象的内容判断子主题的系统。在本公开的示例中,系统包括:数据存储库;数据对象分析器,包括至少一个处理器,用于执行计算机程序代码,以从多个类别中每个类别的一个或多个数据对象的内容确定词语,并将所述词语整理在所述数据存储库中;以及模式分析器,包括至少一个处理器,用于执行计算机程序代码,以从所述数据存储库中的词语中,为从所述多个类别中选出的一个类别确定子主题,该子主题包括词语集合,该词语集合为所选类别的所述数据对象中至少一个数据对象子集的内容所共有,且基本上不在所选类别之外的数据对象中。
本文所描述的示例的优点包括:利用现有的数据对象分类来指导对有意义的、粒度更细的子分类的选择。
一个优点是,优选地选择每个子主题,使之成为一个稀疏的(小的)词语集合,比如,会在属于所述类别的数据对象(如文档)中一起出现、并且不在该类别之外的数据对象中的词。一个优点是,使用在不同的宽泛类别之间的数据中存在的差异,能够找到有意义的细粒度的子主题集合。一个优点是,子主题的明确性部分由稀疏性(每个子主题中有少量的辨别性词语)控制。一个优点是,现有的类别和子主题的结合使得能够在宽度和粒度级别进行更大范围的分类。很少的词语不能区分开宽泛类别,但是可以捕获不同的子主题,并且最终和其他这样的子主题一起覆盖宽泛类别中的所有或者大多数数据对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380076169.9/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法