[发明专利]一种信息匹配方法及装置有效

专利信息
申请号: 201410059965.8 申请日: 2014-02-21
公开(公告)号: CN103761341B 公开(公告)日: 2017-02-22
发明(设计)人: 马龙彪 申请(专利权)人: 北京嘉和美康信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 王宝筠
地址: 100085 北京市海淀区上*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 信息 匹配 方法 装置
【说明书】:

技术领域

发明涉及信息处理技术领域,尤其涉及一种信息匹配方法及装置。

背景技术

随着信息化技术的不断发展,各个行业开始大量依赖信息系统。在每个行业信息化发展的过程中,通常会伴随有业务的不断变化和系统的不断升级,甚至软件开发商的更换,但是,不论信息系统怎样变化,业务发生的相关信息对每个行业来说都具有重要意义,其是决策支持和前景分析的基础。

信息系统涉及的相关信息通常以信息表的形式存储,例如,人员信息,包括员工信息、客户信息等。当信息表中的信息达到一定规模后,通常会存在大量重复的信息。这是因为,同一个人员发生多次业务后可能产生多条信息记录,例如,同一个人在一家医院就诊了10次,可能会产生10条信息记录。为了便于信息管理,通常会对数据表中的信息记录进行信息匹配。所谓信息匹配,即为对多条信息记录进行相似度计算,合并为一条信息记录的过程。

现有技术中,由于信息系统的变化,导致信息表中记录的信息不完整,并且信息质量较低,例如,医院在患者登记时,很多患者信息都没有登记身份证号,在“家庭电话”中记录“手机号”,“联系人”记录在“备注”中,“地址”记录“不详”或“未知”等。发明人在实现本发明创造的过程中发现:信息表中信息的完整度和信息质量较低导致信息无法准确匹配。

发明内容

有鉴于此,本发明提供了一种信息匹配方法,用以解决现有技术中信息表中信息的完整度和信息质量较低导致信息无法准确匹配的问题,其技术方案如下:

一种信息匹配方法,预先设定匹配所需的至少两个属性项以及每个属性项的权重,所述方法包括:

获取信息表,所述信息表包括多个属性项;

依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;

对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;

基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。

其中,所述基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,包括:

基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。

可选的,所述方法还包括:

预先设置别名数据库,所述别名数据库中包括属性信息的别名;

则确定所述第一属性信息与所述信息文本中其它属性信息的相似度,具体为:

结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为1。

其中,所述基于每条信息记录的相似度对所述数据表中的信息记录进行匹配包括:

查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录;

将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。

其中,查找所述数据表中的相似信息记录集合,具体为:

将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记录。

一种信息匹配装置,预先设定匹配所需的至少两个属性项和与每个属性项对应的权重,所述装置包括:

获取模块,用于获取信息表,所述信息表包括多个属性项;

分词模块,用于依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;

确定模块,用于对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;

匹配模块,用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。

其中,所述确定模块包括:

确定子模块,用于基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和美康信息技术有限公司,未经北京嘉和美康信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410059965.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top