[发明专利]基于非主属性离群点检测的实体匹配方法和计算机程序有效
申请号: | 201810737888.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959577B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 曹卫东;王广森;王怀超 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N20/00;G06Q50/30 |
代理公司: | 天津市鼎和专利商标代理有限公司 12101 | 代理人: | 蒙建军 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 离群 检测 实体 匹配 方法 计算机 程序 | ||
本发明公开了一种基于非主属性离群点检测的实体匹配方法,属于互联网技术领域,其特征在于:基于非主属性的离群点检测的实体匹配方法体现在两个方面,一方面利用非主属性值消除主属性值多样性带来的歧义,另一方面根据离群点模型快速的筛选数据,抽取匹配对;具体表现为:先根据不同源的公共非主属性集,根据不同非主属性的特性采用相应的规则对数据进行粗筛选,降低记录对的数据规模,在此基础上利用离群点模型中的五个步骤做进一步的筛选,得到初步的实体对集,然后根据生成的实体对集进行数据集的采样,最后利用机器学习选择合适的匹配器并训练。本发明在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。
技术领域
本发明属于互联网技术领域,特别是涉及一种基于非主属性离群点检测的实体匹配方法和计算机程序。
背景技术
未来三十年,数据应用越来越凸现,这必将影响到民航信息化的建设和发展。随着移动互联网的推广,可以将一些便捷性的应用推向智能终端,通过大数据技术来分析旅客的行为,了解他们的关注点,以改善用户的航空体验。
从全球民航发展情况看,由于市场竞争不断加剧,民航业长期处于微利运营水平。随着近年来全球金融危机的持续恶化,使得航空公司的生存压力日益增大。在日益艰难的市场环境中,航空公司希望通过不断提高旅客服务的水平,从而提升旅客忠诚度,提高公司盈利能力与行业竞争力。
美国纽约的约翰·肯尼迪国际机场是美国三大商务机场之一。该机场建立了一个完善的集空管、机场、航空公司信息为一体的网上信息整合平台,向公众发布各类实时信息,方便旅客的出行。然而,如今随着信息化产业的不断技术发展,旅客对信息的需求不单单局限于相关航空数据,而更多的希望获取更加完善的非航数据,航空旅游数据等。2015年5月28日举行的第七届数字民航趋势发展峰会上,中国南航、世纪互联、浪潮集团等知名企业的专家汇聚一堂,就如何运用大数据、互联网、云计算新一代信息技术,提升航空业的管理和民营环境、改善客户服务质量、提供个性化的航旅服务等问题进行了探讨。
在公共主动服务平台研发方面,国外厂商关注于利用现有技术和从其他行业收集而来的数据分析,来改善航空公司旅客的客户体验,通过抓取旅客在整个旅行途中的多内容数据和分析评估,为航空公司客户提供更个性化的服务。中国航信作为国内唯一的全球分销服务提供商,拥有丰富的民航运营数据资源,各类数据由不同的信息系统进行处理,但信息不能有效的共享,信息不对称,流程不通畅,形成了大量的信息孤岛。能否将企业内部数据资源与外部数据资源有效的整合起来,为企业服务水平提升及行业数据标准化提供有力支撑,成为摆在企业面前的严峻挑战。建立公共服务平台就是要统一为企业和民航业提供完备、一致的数据,以及灵活多样、丰富有效的服务,为数据共享提供良好基础,为服务标准化、专业化提供更完善的应用管理平台。
互联网等多内容数据资源汇聚整合:包括天气、事件、情景信息的采集,用于匹配旅客出行信息和其他行业数据,发现特定天气因素或情景因素导致的特殊民航信息规律等;整合非航数据(酒店信息、目的地旅游产品、租车、火车、大巴、社交网络等第三方媒体)、航空旅游数据(机票及航空公司增值附加服务,如餐食预定、贵宾通道等,CRM,旅客价值信息)、销售规则及渠道控制策略、订单库、交易数据库和文件系统等。
综上所述,现有技术存在的缺陷为:本文引入的监督分类器模型是需要训练的,标签的标注是需要很大的工作量的,未来可以尝试采用弱监督或众包,使系统自动发现匹配,减少人工标注的工作量是下一步研究的重点。
发明内容
发明目的:本发明要解决的技术问题是对非航数据实体描述多样性,提供一种基于非主属性离群点检测的实体匹配方法。该方法通过非主属性值可较好的消除不同源中同一实体主属性值不同所带来的歧义。同时,根据非主属性值较快的排除不匹配记录。将非主属性与离群点检测模型相结合,即考虑了主属性值多样性带来的歧义,又考虑了非匹配对数量远大于匹配对数引起的数据不均衡,建立了基于非主属性的离群点检测的匹配方法。最后引入监督分类器模型进行训练、识别。并在一定程度上克服离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810737888.5/2.html,转载请声明来源钻瓜专利网。