[发明专利]人物搜索方法和设备有效

专利信息
申请号: 201110279602.1 申请日: 2011-09-08
公开(公告)号: CN102999538A 公开(公告)日: 2013-03-27
发明(设计)人: 张姝;孟遥;夏迎炬;于浩 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 朱胜;李春晖
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 人物 搜索 方法 设备
【说明书】:

技术领域

发明涉及网络服务领域,并且更具体地,涉及一种基于特征优化的人物搜索方法和设备。

背景技术

近年来,随着网络的发展,网络上的重名信息越来越多。因此,如何区分这些具有相同名称的人物已引起了研究者的兴趣。例如,当在网页的搜索引擎中输入要搜索的人物的名称时,返回的结果中可能包含许多其他同名人物的信息。这就需要再人工添加查询词或者逐一浏览以确定哪些信息是需要的。但是,由于人工添加查询词对搜索结果进行了过滤,从而降低了搜索的覆盖率;而逐一进行浏览又需要花费大量的时间和精力。因此,理想的解决方案是对搜索引擎返回的搜索结果进行聚类,从而将具有相同名称的不同人物聚在不同的类别中,既保证了信息不会丢失,又节约了时间。

为了解决上述问题,现有的大部分方案都是采用网页聚类的方法,即将包含相同人物名称的相似文档聚在一起,从而便于用户查看。但是,由于网页相对于纯文本具有噪声大、错误多的特点,因此会出现表示不同人物的文档被聚类在一起或者表示同一人物的文档未被聚类在一起的情况,从而大大降低了聚类的性能。

发明内容

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。

由于对于聚类任务,特征的选择是非常关键的。因此,本发明的目的是提供一种新颖且改进的人物搜索方法和设备,其能够通过对特征进行优化,滤除掉影响聚类结果的禁用特征,以保证特征的有效性,从而提高聚类的性能,并且还能够在传统的标准聚类过程之后,进一步引入检索策略以进行类别归并,从而使得被当成单独类别的单个文档归入其相应的类别中,以提高召回率。

为了实现上述目的,根据本发明的实施例的一个方面,提供了一种人物搜索方法,该方法可以包括:文档获取步骤,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理步骤,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取步骤,从所获得的相关信息中提取文档特征;特征优化步骤,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算步骤,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类步骤,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。

根据本发明的实施例的另一方面,还提供了一种人物搜索设备,该设备可以包括:文档获取单元,以给定的人物名称作为关键词进行搜索,以获取与该人物名称相关的多个文档;预处理单元,对所获取的多个文档进行预处理,以获得多个文档的相关信息;特征提取单元,从所获得的相关信息中提取文档特征;特征优化单元,针对每个特征,如果该特征在预设的禁止特征集合中,则滤除该特征;文档相似度计算单元,利用优化后的特征,计算多个文档中每两个文档之间的相似度;以及文档聚类单元,基于算出的相似度,对多个文档进行聚类,并输出聚类结果,其中不同类别代表具有相同名称的不同人物。

另外,根据本发明的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的人物搜索方法。

此外,根据本发明的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的上述人物搜索方法。

因此,根据本发明的实施例,能够通过对特征进行优化以保证特征的有效性从而提高聚类的性能,并且能够通过在标准聚类过程之后引入检索策略以进行类别归并,从而提高召回率。

在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。

附图说明

下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1示出了根据本发明的实施例的人物搜索方法的流程图;

图2详细示出了根据本发明的实施例的特征优化算法的流程图;

图3示出了根据本发明的检索策略的流程图;

图4详细示出了图3所示的类别相似度计算步骤的第一示例的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110279602.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top