[发明专利]基于机器学习的高校前沿科研团队探测系统在审

专利信息
申请号: 201911252944.7 申请日: 2019-12-09
公开(公告)号: CN111078852A 公开(公告)日: 2020-04-28
发明(设计)人: 冉从敬;宋凯 申请(专利权)人: 武汉大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06Q50/18
代理公司: 湖北武汉永嘉专利代理有限公司 42102 代理人: 李丹
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 高校 前沿 科研 团队 探测 系统
【说明书】:

本发明公开了一种基于机器学习的高校前沿科研团队探测系统,包括:数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;数据检索模块,用于从存储数据中进行检索,对题目和摘要字段进行全词匹配,构成匹配数据集;数据处理模块,用于对匹配数据集进行自然语言处理全过程;主题建模及文本聚类模块,采用LDA模型对专利文本进行主题提取;根据初始聚类中心的计算过程,利用D‑T矩阵确定初始聚类中心,进而利用K‑means算法实现专利文本聚类;结果分析及可视化展示模块,用于对科研大咖的个人资料、合作网络、科技成果进行展示。本发明系统从细粒度层面实现精准的校企合作提供技术支撑,保证系统分析结果的合理性,为企业提供全景化的分析结果。

技术领域

本发明涉及知识产权大数据分析技术,尤其涉及一种基于机器学习的高校前沿科研团队探测系统。

背景技术

LDA模型是一种无监督机器学习技术。本发明采用LDA模型对专利文本进行主题提取。模型假设词是由一个主题混合产生,同时每个主题是在固定词表上的一个多项式分布,这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例,从Dirichlet分布中抽样产生。作为一种产生式模型,其结构模型完整清晰,采用高效的概率推断算法处理大规模数据,是目前研究和使用非常广泛的一种主题识别模型。

K-means聚类算法是一种无监督学习算法,是数据挖掘十大经典算法之一。本发明采用K-means算法实现对专利文本的划分。考虑到一件专利进行技术探讨时,技术主题具有专一性、深入化的特征,所以在进行聚类时将一件专利仅划入到一个主题类团中。聚类分析是知识发现中的一项重要研究内容,旨在将数据集合划分为若干个类,使得类内差异小,类间差异大。作为一种基于划分的算法,其具有思想简单、容易实施、时间复杂度接近线性的优点,且对大规模数据挖掘具有高效性和可伸缩性,被广泛应用于文本聚类的研究中。

共现分析是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。专利文献中专利发明人之间的共现频次体现了其关联程度,依据发明人共现分析构建合作网络,为企业探寻高校核心研究团队和科研大咖提供指引,从更加微观的层面为企业明确合作对象、提高校企合作效率提供支持。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于机器学习的高校前沿科研团队探测系统。

本发明解决其技术问题所采用的技术方案是:一种基于机器学习的高校前沿科研团队探测系统,包括:

数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;所述数据存储的格式为:{专利名称、发明人、摘要、申请人、申请号、申请日};

数据检索模块,用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配,构成匹配数据集;

数据处理模块,用于对匹配数据集进行自然语言处理全过程,将文本向量进行分词、去停用词、以及TF*IDF词权重计算,将文本数据转换成词向量的形式;

主题建模及文本聚类模块,采用LDA模型对自然语言处理后的匹配数据集进行主题提取;利用余弦相似度计算结果确定最优主题数目,得到主题结构最优的对应模型,生成文档-主题概率矩阵(D-T矩阵);

根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类;

结果分析及可视化展示模块,用于以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,确定企业选择的对应高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911252944.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top