[发明专利]基于机器学习的高校前沿科研团队探测系统在审
申请号: | 201911252944.7 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111078852A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 冉从敬;宋凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06Q50/18 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 高校 前沿 科研 团队 探测 系统 | ||
1.一种基于机器学习的高校前沿科研团队探测系统,其特征在于,包括:
数据采集及存储模块,用于从专利数据库进行数据抓取并将数据存储;所述数据存储的格式为:{专利名称、发明人、摘要、申请人、申请号、申请日};
数据检索模块,用于根据需求以检索的技术领域作为关键词对数据库进行模糊匹配,构成匹配数据集;
数据处理模块,用于对匹配数据集进行自然语言处理全过程,将文本向量进行分词、去停用词、以及TF*IDF词权重计算,将文本数据转换成词向量的形式;
主题建模及文本聚类模块,采用LDA模型对自然语言处理后的匹配数据集进行主题提取;利用余弦相似度计算结果确定最优主题数目,得到主题结构最优的对应模型,生成文档-主题概率矩阵,即D-T矩阵;
根据初始聚类中心的计算过程,利用D-T矩阵确定初始聚类中心,进而利用K-means算法实现专利文本聚类;
结果分析及可视化展示模块,用于以相似专利密度作为排名指标,对子技术主题下的高校相关专利进行统计,确定企业选择的对应高校后,将进一步对该高校的专利进行更微观的分析:首先针对发明人进行共现分析,构建合作网络展示核心研究团队;进而以相似专利密度为指标,对发明人进行排名,凸显科研大咖,并对科研大咖的个人资料、合作网络、科技成果进行展示。
2.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述数据采集及存储模块中,利用爬虫技术对专利数据库进行数据抓取,在抓取过程中,数据缓存在Redis数据库中,然后循环从Redis读取数据,存储写入Mysql数据库中。
3.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述数据处理模块中,对匹配数据集进行自然语言处理全过程,分词所参照的词典是基于专业文献关键词所构建的全学科词典,保证对不同领域数据集分词的有效性;并根据TF*IDF词权重计算的结果,采用五分位算法,去除概率在16%区间内的无效词,以获取更优的主题建模效果。
4.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,采用LDA模型对专利文本进行主题提取;通过调整主题数目、alpha值和beta值,当主题间平均相似度最小时,得到主题结构最优的对应模型,生成文档-主题概率D-T矩阵,以及每个主题下最相关的20个词用于解释主题。
5.根据权利要求4所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,将主题数目设置在5-50个之间,alpha值及beta值固定为0.5和0.2;通过反复迭代计算,利用余弦相似度计算结果确定匹配数据集的最优主题数目,生成文档-主题概率D-T矩阵。
6.根据权利要求1所述的基于机器学习的高校前沿科研团队探测系统,其特征在于,所述主题建模及文本聚类模块中,聚类过程如下:
对每一个技术主题,首先计算该主题对P篇专利文献的平均支持度Si,0=iK,进而统计支持度大于Si的专利文献作为匹配文献,记为MP,而匹配文献数量记为MPNj,0=jK,如果MPNj高于或等于P/K,则该技术主题为重要主题;将重要主题数作为K-means算法的聚类数N,计算每个重要主题中匹配文献的平均支持度作为对应类团的初始聚类中心(C1,C2,C3…Cn);依据LDA模型生成文档-主题概率矩阵,利用K-means算法进行文本聚类,设置聚类数和初始聚类中心,设置迭代次数,实现专利文献的聚类划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911252944.7/1.html,转载请声明来源钻瓜专利网。