[发明专利]一种智能研报生成方法及终端在审
申请号: | 201910743420.1 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110442772A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 李伟;万超 | 申请(专利权)人: | 深圳司南数据服务有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/957;G06F17/24 |
代理公司: | 深圳市博锐专利事务所 44275 | 代理人: | 郑昱 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融数据 分布式处理 多线程 终端 数据准确性 智能 更新数据 爬虫程序 人工处理 信息处理 信息整理 自动提取 解析器 时效性 数据源 准确率 抽取 站点 搜集 采集 撰写 返回 更新 申请 展示 分析 | ||
1.一种智能研报生成方法,其特征在于,包括步骤:
S1、通过多线程分布式处理模式的爬虫程序对数据源进行实时爬取,以获得初始金融数据;
S2、通过解析器对所述初始金融数据进行处理,以抽取有效金融数据;
S3、组织与展示所述有效金融数据。
2.根据权利要求1所述的一种智能研报生成方法,其特征在于,所述步骤S1具体为:
S11、获取各数据源的爬取匹配规则,所述数据源包括财经网站、政府部门网站、公司主页或公众号,所述爬取匹配规则包括初始金融数据在各数据源上的位置、路径以及显示形式;
S12、多线程分布式处理模式的爬虫程序根据所述爬取匹配规则对数据源进行实时爬取,以获得初始金融数据,所述初始金融数据包括网页数据、PDF文档以及文字信息;
S13、存储所述初始金融数据;
所述步骤S2具体为:
S21、HTML解析器获取根据所述数据源的网页数据解析规则所构建的HTML解析策略;
S22、HTML解析器根据所述HTML解析策略对所述网页数据进行解析,通过HTML页标签对所述网页数据进行定位和过滤,通过正则表达式对所述网页数据进行匹配,以得到有效金融数据;
S23、PDF解析器获取PDF解析策略模型,根据所述PDF解析策略模型对获取到的PDF文档进行分类,以得到所述PDF文档的文档类型,使用与所述PDF文档的文档类型相对应的PDF解析规则对所述PDF文档进行数据抽取,以得到有效金融数据;
S24、通过自然语言处理模型对所述有效金融数据进行数据分类,并根据所分类的类别进行摘要提取,以得到公告新闻摘要;
S25、存储所述有效金融数据以及所述公告新闻摘要;
所述步骤S3具体为:
S31、在前端界面展示所爬取到的PDF文档与文字信息以及处理后的数据指标、指标趋势图、公告新闻摘要以及研究报告。
3.根据权利要求2所述的一种智能研报生成方法,其特征在于,所述步骤S23中“使用与所述PDF文档的文档类型相对应的PDF解析规则对所述PDF文档进行数据抽取”包括:
通过页面定位判断第一表格是否跨页,若是,则将在上一页面的表格标记为上部分表格,将在下一页面的表格标记为下部分表格;
抓取在所述上一页面的表格以及在下一页面的表格,根据标记将抓取到的上部分表格与下部分表格进行合并,以得到第一表格。
4.根据权利要求2所述的一种智能研报生成方法,其特征在于,所述步骤S31中的“研究报告”的生成步骤具体为:
获取研究报告模板,所述研究报告模块包括研报表头、页眉页脚以及尾注;
从所述有效金融数据提取评述性文字与数据指标,并根据所述评述性文字与数据指标构建数据指标趋势图、数据表格;
在所述研究报告模板内嵌入所述评述性文字、数据指标、数据指标趋势图以及数据表格,生成Word格式的研究报告。
5.根据权利要求2所述的一种智能研报生成方法,其特征在于,所述步骤S22中HTML解析器根据所述HTML解析策略对所述网页数据进行解析包括:
获取网页数据中的URL,向所述URL发送数据请求,判断是否收到响应数据,若是,则获取DOM文档,否则继续向所述URL发送数据请求。
6.一种智能研报生成终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、通过多线程分布式处理模式的爬虫程序对数据源进行实时爬取,以获得初始金融数据;
S2、通过解析器对所述初始金融数据进行处理,以抽取有效金融数据;
S3、组织与展示所述有效金融数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳司南数据服务有限公司,未经深圳司南数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743420.1/1.html,转载请声明来源钻瓜专利网。