[发明专利]一种科研学者画像的快速表征方法有效
申请号: | 202010040201.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241283B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蔡世民;王锐杰;李健强 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06F40/284;G06F40/216;G06F16/35;G06F18/25 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科研 学者 画像 快速 表征 方法 | ||
1.一种科研学者画像的快速表征方法,包括下列步骤:
步骤1:对学者数据库和论文数据库进行数据融合匹配,其中学者库中“姓名”与论文库中“作者名”进行关联,对于重名问题进行姓名-邮箱-机构三重绑定验证;
步骤2:从融合筛选后的数据中提取出论文摘要的语料文本,形成科研学者-学术论文-摘要文本之间的直接关系,并且精简为科研学者-摘要文本的直接对应关系;
步骤3:保留学术论文中的“关键字”字段,如缺失则置空;步骤2和步骤3为整个构建方法提供直接数据,接下来对该数据进行预处理;
步骤4:利用词频-逆向文件频率来对每份数据中的摘要文本进行有效词或有效短语的预处理,找到能体现差异性的关键词,得到文本语料的向量化特征;
步骤5:对步骤4中所有预处理得到的向量化特征进行粗聚类,将摘要文本语料根据词性差异进行有效划分;
步骤6:对步骤5中的聚类结果,通过逆向查询论文关键词,并对同类别中的学术论文“关键词”字段进行统计和词频排序,根据排名第一的关键词对聚类结果进行标注,从而标注出所有的学术论文的相应标签;
步骤7:根据标注结果,对科研学者所著的所有学术论文进行标签统计,对标签名和标签权重值进行统计排序,取权重值前五的标签名和标签权重构成排序向量集合完了对科研学者画像维度的快速表征。
2.如权利要求1所述的一种科研学者画像的快速表征方法,其特征在于所述步骤4的具体方法为:
步骤4.1:步骤3得到的论文摘要文本表征为W=(w1,w2,…,wi,…,wn),其TF向量计算方法为:
其中表示在摘要文本中词wi出现的次数,Tw表示统计的总词数;
步骤4.2:计算其逆向文件频率IDF,得到文本的IDF向量;IDF向量的计算方法为:
其中,Td表示语料库中的总文档数,表示语料库中包含词wi的文档数;
步骤4.3:文本的TF-IDF矩阵计算为词频TF和逆向文件频率IDF的乘积,即:
TF-IDF(W)=TF(W)*IDF(W)
这样就得到了论文摘要文本语料的向量化特征。
3.如权利要求1所述的一种科研学者画像的快速表征方法,其特征在于所述步骤7的具体方法为:
步骤7.1:对科研学者所发表的论文进行统计,某个科研学者所发表的论文集合可以表示为Ri=(P1,P2,Pj,...,Pn),对其发表的n篇论文中,基于粗聚类方法得到的论文标签,统计其发表的所有论文中各个标签对应的论文数,得到带权重的学者的维度向量;学者的带权维度向量Hi计算为:
Hi=sum(cate(Pj))
步骤7.2:对带权科研学者维度向量计算前k个作为该学者的最终画像维度也就是,科研学者画像维度计算方法为:
最终构建得到的科研学者的画像维度;
所述函数cate(Pj)为:
对不同的摘要簇分别提取出每篇摘要中的关键词得到每个摘要簇的关键词表征:
对摘要簇中的关键字进行词频统计,将摘要簇的关键字表征转化为向量化的词频表征并排序,摘要簇的类别标注为:
Cate(Pj)=max(sort(sum(Pj)))。
4.如权利要求2所述的一种科研学者画像的快速表征方法,其特征在于所述步骤5中粗聚类的方法为:
摘要簇的中心μj按照如下的方法计算:
其中N(aj)表示属于簇aj中的样本个数,xi表示第i篇摘要的TF-IDF向量;
将每篇摘要文本重新划分到一个类,使用的是摘要文本向量到各个类中心的距离最短的原则,这个距离计算为:
μj的第i个分量,n表示μj分量的总数,第一次实施聚类将随机指定摘要文本属于某个摘要簇,经过两次迭代后,得到互不相交的摘要簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010040201.X/1.html,转载请声明来源钻瓜专利网。