[发明专利]用于计算文档重要性的设备及方法无效
申请号: | 201110074864.4 | 申请日: | 2011-03-16 |
公开(公告)号: | CN102682040A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 李建强;赵彧;刘博 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 潘剑颖 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算 文档 重要性 设备 方法 | ||
技术领域
本发明涉及信息检索领域,具体涉及一种用于计算文档重要性的设备及方法。
背景技术
随着电子信息量的不断增长,大量的多样化信息存在于不同的分布式系统中,使得用户从中查找有用信息变得非常困难。
信息检索(Infrmation Retrieval,IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为:搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。
在给定查询的情况下,文档检索主要使用查询相关方法和查询无关方法的组合来对文档进行排序。查询相关方法对查询与文档之间的相似度进行度量。查询无关方法考虑与特定查询的匹配程度无关的特征而对文档进行排序。在实际使用中,无论是对于一般的文档搜索引擎还是特定的查询/回答或数据挖掘系统,使用查询无关方法计算文档重要性都扮演了重要的角色。
传统的信息检索技术主要采用文档的内部信息来度量查询与文档之间的相似度(查询相关分数)。对于网页排序,Web的超链接结构扮演了重要的角色。例如PageRank使用页面在Web的图结构中的位置来确定其重要性(查询无关分数)。
参考文献1(“The PageRank citation ranking:Bringing order to theweb”,L.Page,S.Brin,R.Motwani,and T.Winograd,Technical Report,Stanford University,1999)描述了一种向网页分配重要性等级的方法。该方法主要包括如下步骤:(1)针对给定的网页集合,提取超链接;(2)建立链接图,将每一个页面看作节点并将每一个超链接看作定向边。(3)网页重要性排序,链接图可被理解为马尔可夫链,其中网页可被视为状态,而页面之间的链接可被视为状态的跳转。通过假定初始概率分布,计算对应的马尔可夫链的稳态概率分布。
参考文献2(US6285999B1)描述了一种链接数据库中的节点排序方法。对于链接数据库中的文档,根据引用该文档的其他文档的等级来计算该文档的等级。
然而,链接图并不是很可靠的数据源,这是因为:Web中的超链接可以由Web内容的创建者随意增加或删除,这使得网站的建立者能够伪造网页的重要性分数。此外,对于一般的文档集合,不存在文档之间的超链接关系,因此现有的技术方案无法应用于一般的文档集合。
发明内容
为了解决上述技术问题,本发明使用目标文档和外部文档(即外部源中的文档)之间的语义关联来计算文档重要性。具体地,本发明使用外部文档集合作为隐性知识源,首先构建目标文档与外部文档之间的语义关联,然后采用所构建的语义关联来计算文档的重要性分数。
根据本发明的一个方面,提供了一种文档重要性计算设备,包括:语义关联建立单元,用于建立来自目标文档集合的目标文档与来自外部文档集合的外部文档之间的语义关联;以及文档重要性计算单元,用于根据语义关联来计算目标文档的重要性分数。
优选地,语义关联建立单元度量目标文档与外部文档之间的文本相似度,由此来建立目标文档与外部文档之间的语义关联。
优选地,语义关联建立单元把目标文档和外部文档分别定义为类文档和实例文档,并计算实例文档属于类文档的概率,由此来建立目标文档与外部文档之间的语义关联。
优选地,文档重要性计算单元根据与目标文档相关联的外部文档的个数来计算目标文档的重要性分数。
优选地,文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据目标文档的边权重之和来计算目标文档的重要性分数。
优选地,文档重要性计算单元生成包括目标文档作为节点的图结构,所述图结构中连接节点的每条边都具有权重,所述每条边的权重由与该边所连接的两个目标文档都关联的外部文档的个数来决定,所述文档重要性计算单元根据与目标文档相关联的外部文档的个数以及目标文档的边权重之和来计算目标文档的重要性分数。
优选地,文档重要性计算单元首先根据与目标文档相关联的外部文档的个数计算目标文档的中间重要性分数,然后根据中间重要性分数和目标文档的边权重之和来计算目标文档的重要性分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110074864.4/2.html,转载请声明来源钻瓜专利网。