[发明专利]用于计算对象之间竞争性度量的方法与系统无效
申请号: | 200710188234.3 | 申请日: | 2007-11-13 |
公开(公告)号: | CN101436191A | 公开(公告)日: | 2009-05-20 |
发明(设计)人: | 李建强;赵彧;福岛俊一 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 王 怡 |
地址: | 100007北京市东城区东四十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算 对象 之间 竞争性 度量 方法 系统 | ||
技术领域
本发明涉及信息处理,更具体而言,本发明提供了用于计算两个对象(例如产品/公司)之间的竞争性度量(competitive metric)以允许自动的挖掘/发现竞争者的方法和系统。
背景技术
当今,人们能够获得的信息越来越多。由于很多原始信息不是外在可见的,因此需要有针对性地对原始信息进行处理,以从中获得有用的信息。由于信息量和处理时间上的要求,尤其是因为伴随着网络和通信技术的飞速发展,信息量大、信息多样以及信息分散等特点越来越显著,在许多应用中,已经不可能人工地来对信息进行处理。因此,迫切需要利用计算机技术来有针对性地自动对信息进行例如提取、挖掘、比较、度量、评价等的处理的技术。其中,自动分析和计算对象之间的竞争性度量的技术就是其中的一种信息处理技术。
在当前的竞争性环境中,尤其在商业环境中,几乎所有公司都希望了解到它们的竞争者的情况,例如谁是竞争者、竞争者在哪以及在干什么。但是,寻找竞争者是一项耗时并且繁重的任务,并且在全球化环境中尤其如此。在全球化环境中,竞争者可能来自世界各地并且它们在市场上的产品也在不断改变。
商业智能(Business Intelligence,BI)代表将原始数据转化成信息/知识并且帮助企业用户更好地做出商业决定所需的技术和应用的集合。竞争性智能(Competitive Intelligence,CI)则尤其集中针对关于外部商业环境的信息的收集、分析和管理。当前,竞争性信息仅仅可以从以下三种方式获得:1)通过与竞争者的员工或用户面谈或联网,2)在web搜索引擎(例如Google)的帮助下收集所需信息并人为浏览和汇总搜索结果,以及3)来自公众或订购源,例如Yahoo Finance、D&B、infoUSA、Hoovers和OneSource。其中1)和2)都基于人类活动,因此非常耗时耗力,并且收集的信息范围很有限。对于3),虽然存在某些包含公司信息的商业数据库可被利用,但是它们的数据规模非常有限,其中大多数数据库是单一语言的,并且可能仅包括金融信息(例如Yahoo Finance和D&B)或仅覆盖本地公司(例如infoUSA)。另外,这些商业数据库中的信息被是由人工来完成更新,因此订购者/用户难以或甚至不能大规模地收集实时的竞争性相关信息,尤其是在全球化的商业环境中。
考虑到寻找竞争者的任务对用户而言很繁重,因此强烈需要更有效的自动化竞争性分析方法,用于计算竞争者(例如公司/产品的竞争性对象)之间的竞争性度量。
现有的竞争性度量计算方案通常会借鉴对象相似性计算技术的基本思想,因此下面对相似性计算的相关方法和技术进行简单介绍。
基本上,用于两个对象之间的相似性度量计算的方法或技术可被划分成:基于内容的方法、基于引用(citation)的方法和混合方法。
对于基于内容的方法,可进一步将其分为基于向量空间模型(VectorSpace Model,VSM)的方法和基于属性值的方法。基于VSM的方法主要用于计算两个全文本(full-text)文件之间的相似性度量。其基本思想是:根据系统中所有文件中的所有单词建立词汇表;基于该词汇表,每个文件被表示成一个向量;然后采用特定相似性测量手段(其中余弦测量是最常用的一种)来测量两个文件之间的相似性。此外,基于属性的方法主要针对结构化文本。类似于基于VSM的方法,首先,文件/记录被表示为多个属性值(其中每个属性值描述该文件的一个方面)构成的向量;然后计算出每对相应的属性值之间的相似性距离;基于各个属性对相似性度量的贡献对属性进行分类;对经分类的属性应用适当的加权策略,并且通过对各个属性的相似性距离加权求和来测量文件/记录之间的相似性。
对于基于引用的方法,其通常基于两个对象(例如两个网络文件)之间的超级链接/引用信息来计算它们之间的相似性度量。超级链接/引用关系的分析是针对整个对象(网络文件)集合进行的,因此其结果可能比纯粹基于VSM或基于属性的方法的结果更准确、更有效。
对于混合方法,两个对象之间的相似性的计算既考虑到其内容也考虑到整个对象集合中所有对象之间的链接结构,其中相似性度量计算的基本特征包括超级链接结构、文本信息和文档对象模型(Document ObjectModel,DOM)相似性。根据链接结构得到的相似性权重可以根据文本信息和DOM结构的相似性进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710188234.3/2.html,转载请声明来源钻瓜专利网。