[发明专利]一种信息匹配方法及装置有效
| 申请号: | 201410059965.8 | 申请日: | 2014-02-21 |
| 公开(公告)号: | CN103761341B | 公开(公告)日: | 2017-02-22 |
| 发明(设计)人: | 马龙彪 | 申请(专利权)人: | 北京嘉和美康信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息 匹配 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息匹配方法及装置。
背景技术
随着信息化技术的不断发展,各个行业开始大量依赖信息系统。在每个行业信息化发展的过程中,通常会伴随有业务的不断变化和系统的不断升级,甚至软件开发商的更换,但是,不论信息系统怎样变化,业务发生的相关信息对每个行业来说都具有重要意义,其是决策支持和前景分析的基础。
信息系统涉及的相关信息通常以信息表的形式存储,例如,人员信息,包括员工信息、客户信息等。当信息表中的信息达到一定规模后,通常会存在大量重复的信息。这是因为,同一个人员发生多次业务后可能产生多条信息记录,例如,同一个人在一家医院就诊了10次,可能会产生10条信息记录。为了便于信息管理,通常会对数据表中的信息记录进行信息匹配。所谓信息匹配,即为对多条信息记录进行相似度计算,合并为一条信息记录的过程。
现有技术中,由于信息系统的变化,导致信息表中记录的信息不完整,并且信息质量较低,例如,医院在患者登记时,很多患者信息都没有登记身份证号,在“家庭电话”中记录“手机号”,“联系人”记录在“备注”中,“地址”记录“不详”或“未知”等。发明人在实现本发明创造的过程中发现:信息表中信息的完整度和信息质量较低导致信息无法准确匹配。
发明内容
有鉴于此,本发明提供了一种信息匹配方法,用以解决现有技术中信息表中信息的完整度和信息质量较低导致信息无法准确匹配的问题,其技术方案如下:
一种信息匹配方法,预先设定匹配所需的至少两个属性项以及每个属性项的权重,所述方法包括:
获取信息表,所述信息表包括多个属性项;
依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;
对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;
基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
其中,所述基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,包括:
基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
可选的,所述方法还包括:
预先设置别名数据库,所述别名数据库中包括属性信息的别名;
则确定所述第一属性信息与所述信息文本中其它属性信息的相似度,具体为:
结合所述别名数据库确定所述信息文本中的其它属性信息中是否存在所述第一属性信息的别名,当所述信息文本中的其它属性信息中存在所述第一属性信息的别名时,确定所述第一属性信息的相似度为1。
其中,所述基于每条信息记录的相似度对所述数据表中的信息记录进行匹配包括:
查找所述数据表中的相似信息记录集合,所述相似记录集合中包括至少两条相似信息记录;
将所述相似信息记录集合中,相似度大于第一预设值的信息记录进行匹配。
其中,查找所述数据表中的相似信息记录集合,具体为:
将与所述信息表中的至少一个属性项对应的属性信息作为第二属性信息,基于所述第二属性信息在所述信息文本中检索,确定与所述第二属性信息有关的信息记录,并将与所述第二属性信息有关的信息记录确定为相似信息记录。
一种信息匹配装置,预先设定匹配所需的至少两个属性项和与每个属性项对应的权重,所述装置包括:
获取模块,用于获取信息表,所述信息表包括多个属性项;
分词模块,用于依据所述属性项对所述信息表中的信息记录进行分词,得到信息文本;
确定模块,用于对于每条信息记录,从所述信息记录中获取与匹配所需的属性项对应的属性信息作为第一属性信息,基于所述第一属性信息检索所述信息文本,确定所述第一属性信息的相似度,通过所述第一属性信息的相似度以及对应的属性项的权重确定所述信息记录的相似度;
匹配模块,用于基于每条信息记录的相似度对所述信息表中的信息记录进行匹配。
其中,所述确定模块包括:
确定子模块,用于基于所述第一属性信息检索所述信息文本,确定所述第一属性信息与所述信息文本中其它属性信息的相似度,将计算得到的最大相似度确定为所述第一属性信息的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和美康信息技术有限公司,未经北京嘉和美康信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410059965.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带背光电子时钟的防辐射、抗菌、除臭服装
- 下一篇:带凹槽的防滑透光透气桌布
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





