[发明专利]一种面向推荐平台的RPA数据采集方法有效
申请号: | 202111359478.X | 申请日: | 2021-11-17 |
公开(公告)号: | CN114168832B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 黄震;金持;窦勇;赖志权;李东升;汪昌健 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 推荐 平台 rpa 数据 采集 方法 | ||
本发明公开了一种面向推荐平台基于RPA技术的数据采集方法,目的是解决传统基于RPA的数据采集方法流程正确性难以保障,异常情况无法判断的问题。技术方案是:构建由由客户端、数据整编模块、推文采集模块、模板匹配模块、博主采集模块、流程日志E、目标数据池A以及主题标签数据池S构成的面向推荐平台的RPA数据采集系统。根据用户需要面向推荐平台对界面元素进行定位、对主题关键词进行筛选,实现自动化的数据下载、整编,并将全流程记录至流程日志以供用户回溯。采用本发明能筛选出用户需要的博主及噪音推文,得到清洁度较高的细粒度数据集,不需要额外做数据处理,减少了流程异常等问题的发生,有效提升数据采集的效率及准确度。
技术领域
本发明涉及机器人流程自动化(Robotic Process Automation RPA)领域,具体涉及一种面向推荐平台的RPA数据采集方法。
背景技术
数据采集是指根据提供的关键词,将存储在信息世界中的相关数据以指定的格式筛选、整编、存储在本地的指定路径下。
互联网的诞生与普及极大的改变了人们对信息的获取与认知方式,如今人们习惯于将数据存储于信息世界,通过搜索引擎或手机应用等工具进行检索,从而采集到所需信息。在实际工作中,数据采集通常分为以下两种场景,一种是通过搜索引擎检索到数据源,该场景的特点是可以调取网页的HTML标签或是内部的API接口,称之为有标签场景。目前已经有较为成熟的解决办法,利用商业采集器或是编写爬虫程序等方法来对该场景进行数据采集,采集速度较快并且采集信息相对准确。
另一种场景是通过手机应用或是基于Direct UI框架(见文献“宋伟.Dir ectX三维游戏编程[M].西安电子科技大学出版社2016.”)开发的软件平台检索数据源。基于Direct UI框架开发的软件平台将所有的界面控件都绘制在一个窗口上,而不是使用Windows的原生控件,所以这些控件都是无句柄的。简单来说,其界面元素都是“画”出来的,虽然人眼可以看到,但操作系统或其他程序都不知道界面元素到底在哪里,无法通过句柄对各级窗口进行细粒度的控制。通过手机应用进行数据采集需要借助手机模拟器来实现,与Direct UI框架开发的软件平台具有同样的特性。
该场景的特点是无法查询HTML标签及界面元素,检索平台不提供内部的AP I接口,称之为无标签场景。该场景无法利用有标签场景下数据采集的解决方法,只能通过类似人工采集的方法识别界面元素,控制鼠标键盘进行点击、输入输出等操作。进入大数据时代,互联网上信息量呈指数型暴增,面对规模巨大的信息空间,人工浏览耗时耗力并且准确率较低,已无法满足数据采集的需求。因此迫切需要寻求一个智能化、自动化进行数据采集的方案。
一种自动化进行数据采集的有效解决方案是机器人流程自动化技术(Robot icProcess Automation RPA),RPA技术通过模拟人类在电脑上对鼠标键盘操作,可以像真人一样进行自动化办公,基于用户界面(UI)和脚本程序(Script)按照规则去自动化执行流程或一系列任务,也被成为RPA机器人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111359478.X/2.html,转载请声明来源钻瓜专利网。