[发明专利]一种竞争情报收集系统在审
申请号: | 201711120740.9 | 申请日: | 2017-11-14 |
公开(公告)号: | CN108197136A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 申敏 | 申请(专利权)人: | 南方电网科学研究院有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒和顿知识产权代理有限公司 11014 | 代理人: | 揭玉斌 |
地址: | 510000 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情报收集 信息导入模块 信息获取模块 情报系统 相关信息 信息归类 信息筛选 信息适配 库模块 情报 | ||
本发明公开了一种竞争情报收集系统,包括信息获取模块1、信息导入模块2、信息适配模块3、信息筛选模块4、信息归类模块5和竞争情报总库模块6;利用本发明竞争情报系统,能够更加全面地收集相关信息,能够更加及时、准确地针对相关领域开展情报收集。
技术领域
本发明涉及信息收集领域,具体涉及一种利用利用计算机技术自动收集相关信息的情报收集系统。
背景技术
目前,情报收集手段逐渐由过去依靠人工调查、人工询问以及文献搜集的方式,向以计算机技术为依托,以互联网技术为支撑的新型方式过渡。
然而,目前通过采用互联网技术收集情报的方法,大部分存在所搜集的相关信息与科研人员所需求的信息严重脱节的问题,同时,目前存在的利用互联网收集相关信息的方法只能收集网络公开信息,对于科研人员本地存储信息却无法收集,也无法汇总统计分析。
发明内容
为了提升信息收集效率,可以更加及时、全面、准确地收集相关情报信息,本发明提出一种竞争情报系统,具体发明技术如下:
一种竞争情报收集系统,包括信息获取模块1、信息导入模块2、信息适配模块3、信息筛选模块4、信息归类模块5和竞争情报总库模块6;
信息获取模块:采用计算机网络爬虫技术,定期从目标网站将网页HTML或JSON文件上,下载存储到本地服务器。计算机采用的爬虫技术支持自动登录以及简单的验证码识别功能,支持翻页操作,支持自动识别页面编码格式。
信息导入模块:采用开发的计算机导入程序,将来自内部数据源的数据自动导入到本地服务器。
信息适配模块:将信息获取模块和信息导入模块两部分产生的数据按照数据加工规则进行自动整理匹配,形成竞争情报信息的统一格式。
对于从互联网获取的信息采用XPATH、JsonPath、正则表达式匹配等方法进行适配;对于从企业内部数据源导入的数据,采用字段对照表的形式进行适配。
信息筛选
信息筛选模块:自动去重并过滤无效信息。该模块利用相似度算法计算相关信息与系统现存信息的相似程度,智能化处理数据,自动去除相似度较高的信息;
同时,针对无效或信息含量较低的数据信息,信息筛选模块通过计算不同信息所含关键词的信息量值,主动剔除无效或信息含量较低的数据信息。
信息归类模块:利用现有的归类算法和关键词,将信息自动归纳到树形结构的分类表中,通过分析关键词含义,系统自动匹配相关词汇,对信息数据进行自动标引。
竞争情报总库模块:本模块用于存放归类好的信息数据及标引数据,将不同数据分类放置。
按照数据处理流程,信息获取模块1和信息导入模块2并列分布,两者分别与信息适配模块3相连,信息适配模块3、信息筛选模块4、信息归类模块5和竞争情报总库模块6依次相连,信息导入模块2能够自动导入本地存储信息数据。
其中,竞争情报收集系统的工作流程为系统先通过信息获取和信息导入模块获得源数据,经过信息适配和信息筛选模块将源数据处理为统一格式的信息数据;然后经过信息归类模块进行加工、标引,加工完成的数据存放竞争情报总库模块。
信息归类模块5设置在竞争情报总库模块6前端,有利于及时将信息归档分类,减轻了竞争情报总库模块6的数据处理压力。
本发明设置有信息获取模块1和信息导入模块2,有利于使用者采用多种不同渠道的数据源,扩展了系统信息来源渠道;信息数据经过信息适配模块3加工处理,能够将不同格式的信息数据统一格式,方便后续情报信息的处理和分析;同时,本发明通过设置信息筛选模块4能够智能化自动滤除重复度较高的信息以及信息量较低的信息,提高了信息收集的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司,未经南方电网科学研究院有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711120740.9/2.html,转载请声明来源钻瓜专利网。