[发明专利]基于机器学习的高校前沿科研团队探测系统在审
申请号: | 201911252944.7 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111078852A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 冉从敬;宋凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06Q50/18 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 高校 前沿 科研 团队 探测 系统 | ||
本发明公开了一种基于机器学习的高校前沿科研团队探测系统,包括:数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;数据检索模块,用于从存储数据中进行检索,对题目和摘要字段进行全词匹配,构成匹配数据集;数据处理模块,用于对匹配数据集进行自然语言处理全过程;主题建模及文本聚类模块,采用LDA模型对专利文本进行主题提取;根据初始聚类中心的计算过程,利用D‑T矩阵确定初始聚类中心,进而利用K‑means算法实现专利文本聚类;结果分析及可视化展示模块,用于对科研大咖的个人资料、合作网络、科技成果进行展示。本发明系统从细粒度层面实现精准的校企合作提供技术支撑,保证系统分析结果的合理性,为企业提供全景化的分析结果。
技术领域
本发明涉及知识产权大数据分析技术,尤其涉及一种基于机器学习的高校前沿科研团队探测系统。
背景技术
LDA模型是一种无监督机器学习技术。本发明采用LDA模型对专利文本进行主题提取。模型假设词是由一个主题混合产生,同时每个主题是在固定词表上的一个多项式分布,这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例,从Dirichlet分布中抽样产生。作为一种产生式模型,其结构模型完整清晰,采用高效的概率推断算法处理大规模数据,是目前研究和使用非常广泛的一种主题识别模型。
K-means聚类算法是一种无监督学习算法,是数据挖掘十大经典算法之一。本发明采用K-means算法实现对专利文本的划分。考虑到一件专利进行技术探讨时,技术主题具有专一性、深入化的特征,所以在进行聚类时将一件专利仅划入到一个主题类团中。聚类分析是知识发现中的一项重要研究内容,旨在将数据集合划分为若干个类,使得类内差异小,类间差异大。作为一种基于划分的算法,其具有思想简单、容易实施、时间复杂度接近线性的优点,且对大规模数据挖掘具有高效性和可伸缩性,被广泛应用于文本聚类的研究中。
共现分析是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。专利文献中专利发明人之间的共现频次体现了其关联程度,依据发明人共现分析构建合作网络,为企业探寻高校核心研究团队和科研大咖提供指引,从更加微观的层面为企业明确合作对象、提高校企合作效率提供支持。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于机器学习的高校前沿科研团队探测系统。
本发明解决其技术问题所采用的技术方案是:一种基于机器学习的高校前沿科研团队探测系统,包括:
数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;所述数据存储的格式为:{专利名称、发明人、摘要、申请人、申请号、申请日};
数据检索模块,用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配,构成匹配数据集;
数据处理模块,用于对匹配数据集进行自然语言处理全过程,将文本向量进行分词、去停用词、以及TF*IDF词权重计算,将文本数据转换成词向量的形式;
主题建模及文本聚类模块,采用LDA模型对自然语言处理后的匹配数据集进行主题提取;利用余弦相似度计算结果确定最优主题数目,得到主题结构最优的对应模型,生成文档-主题概率矩阵(D-T矩阵);
根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类;
结果分析及可视化展示模块,用于以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,确定企业选择的对应高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911252944.7/2.html,转载请声明来源钻瓜专利网。