[发明专利]使用路径调度的高效爬寻及其应用在审
| 申请号: | 202080076024.9 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN114761945A | 公开(公告)日: | 2022-07-15 |
| 发明(设计)人: | 卡洛斯·韦拉-奇罗;罗伯特·雷蒙德·林德内尔 | 申请(专利权)人: | 维达数据方案公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06Q30/02;G06Q50/22 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 韩峰;孙志湧 |
| 地址: | 美国华盛顿*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 路径 调度 高效 及其 应用 | ||
本公开涉及用于以结构化方式从数据源中提取非结构化数据的系统和方法。实施例提供了从没有为自动化检索而优化的数据源中检索非结构化数据的方式。例如,实施例可以为每个数据源生成分支树,其映射出到例如列出非结构化数据的医疗保健提供者的个体站点的路径。使用这种分支树,可以生成任务来沿着具有数据源的路径导航到每个站点,并从数据源提取非结构化数据。这样,实施例提供了从基本站点到具有相关数据的站点通过站点导航的能力。
技术领域
本领域总体上涉及处理信息。
背景技术
随着技术的进步,越来越多的人口统计信息被数字化。例如,对于医疗保健提供者,人口统计信息可以包括但不限于他们的姓名、地址、专业、学历、认证等。该人口统计信息可以从各种公共数据源(诸如网站)获得。这些网站可以从存储数据的基础数据库(诸如州、县、城市或自治市数据库)中检索人口统计信息。例如,州可能有许可委员会,该许可委员会维护所有许可的医疗保健提供者的列表,以及它们相关联的人口统计信息。在另一个示例中,健康保险公司可以具有公共网站,公共网站在其网络中具有列出医疗保健提供者和相关联人口统计信息。在另一个示例中,医疗保健提供者可以自己建立公共网站,列出关于他们的工作地点的这种人口统计信息。
这些网站中的一些可通过信息树来组织。例如,为了检索关于特定医疗保健提供者的人口统计信息,用户可以首先从下拉列表中选择县。然后出现另一个页面,要求用户从下拉列表中选择所选县的一个城镇。然后,可能会出现第三个页面,要求用户选择医疗保健专业。只有这样,符合所选标准的医疗保健提供者才会显示出来,同时至少显示一些存储在基础数据库中的相关人口统计信息。
实体可能需要维护人口统计信息。例如,健康保险公司可能需要维护对所要求的服务需要赔偿的医疗保健提供者的人口统计信息。通常,这些信息可能不准确,或者不如从其它公共数据源获得的信息准确。
从这些公共数据源手动检索数据将是困难且耗时的。此外,这些数据源中的许多不适合于允许信息的自动化检索。它们被设计成在人类用户浏览网站时向他们提供信息。如果自动化系统在很短的时间范围内对这些公共数据源发出太多的请求,可能会导致数据源超负荷并失败。
此外,返回数据可能不是以已知格式结构化的。它可以以这样的方式呈现,即一旦渲染,人类用户将能够容易地识别人口统计信息以及它如何对应于特定的医疗保健提供者。然而,因为数据可能不是已知的标准格式,所以自动化系统可能难以解析数据和关联描述单个医疗保健提供者的人口统计信息。
因此,需要改进从这些数据源提取人口统计信息,并将人口统计信息整合到经验证的最新目录中,同时减轻医师和医疗保健提供者的负担的系统和方法。
附图说明
并入本文并构成说明书一部分的附图示出了本公开内容,并与说明书一起进一步用于解释本公开内容的原理,并使相关领域的技术人员能够做出和使用本公开。
图1示出了根据本公开方面的、一个或多个数据源与系统之间的通信网络图。
图2示出了根据本公开方面的、用于从一个或多个数据源累积数据的系统的图。
图3示出了根据本公开的方面的、由用于从一个或多个数据源累积数据的系统生成的示例决策树。
图4示出了根据本公开的方面的、分配给一个或多个数据源的示例优先级。
图5示出了根据本公开的方面的、由用于从一个或多个数据源累积数据的系统生成的示例报告。
图6示出了根据本公开的方面的、从多个数据源提取非结构化数据的方法。
图7示出了根据本公开的方面的、训练计算设备以从多个数据源提取非结构化数据的方法。
图8示出了使用机器学习模型的方法。
图9A-B示出了如何提取页面元素之间的几何距离的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维达数据方案公司,未经维达数据方案公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080076024.9/2.html,转载请声明来源钻瓜专利网。





