首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种科研学者画像的快速表征方法有效

申请号：	202010040201.X	申请日：	2020-01-15
公开（公告）号：	CN111241283B	公开（公告）日：	2023-04-07
发明（设计）人：	蔡世民;王锐杰;李健强	申请（专利权）人：	电子科技大学
主分类号：	G06N5/025	分类号：	G06N5/025;G06F40/284;G06F40/216;G06F16/35;G06F18/25
代理公司：	电子科技大学专利中心 51203	代理人：	陈一鑫
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种科研学者画像快速表征方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种科研学者画像的快速表征方法，包括下列步骤：

步骤1：对学者数据库和论文数据库进行数据融合匹配，其中学者库中“姓名”与论文库中“作者名”进行关联，对于重名问题进行姓名-邮箱-机构三重绑定验证；

步骤2：从融合筛选后的数据中提取出论文摘要的语料文本，形成科研学者-学术论文-摘要文本之间的直接关系，并且精简为科研学者-摘要文本的直接对应关系；

步骤3：保留学术论文中的“关键字”字段，如缺失则置空；步骤2和步骤3为整个构建方法提供直接数据，接下来对该数据进行预处理；

步骤4：利用词频-逆向文件频率来对每份数据中的摘要文本进行有效词或有效短语的预处理，找到能体现差异性的关键词，得到文本语料的向量化特征；

步骤5：对步骤4中所有预处理得到的向量化特征进行粗聚类，将摘要文本语料根据词性差异进行有效划分；

步骤6：对步骤5中的聚类结果，通过逆向查询论文关键词，并对同类别中的学术论文“关键词”字段进行统计和词频排序，根据排名第一的关键词对聚类结果进行标注，从而标注出所有的学术论文的相应标签；

步骤7：根据标注结果，对科研学者所著的所有学术论文进行标签统计，对标签名和标签权重值进行统计排序，取权重值前五的标签名和标签权重构成排序向量集合完了对科研学者画像维度的快速表征。

2.如权利要求1所述的一种科研学者画像的快速表征方法,其特征在于所述步骤4的具体方法为：

步骤4.1：步骤3得到的论文摘要文本表征为W＝(w₁,w₂,…,w_i,…,w_n)，其TF向量计算方法为：

其中表示在摘要文本中词w_i出现的次数，T_w表示统计的总词数；

步骤4.2：计算其逆向文件频率IDF，得到文本的IDF向量；IDF向量的计算方法为：

其中，T_d表示语料库中的总文档数，表示语料库中包含词w_i的文档数；

步骤4.3：文本的TF-IDF矩阵计算为词频TF和逆向文件频率IDF的乘积，即：

TF-IDF(W)＝TF(W)*IDF(W)

这样就得到了论文摘要文本语料的向量化特征。

3.如权利要求1所述的一种科研学者画像的快速表征方法,其特征在于所述步骤7的具体方法为：

步骤7.1：对科研学者所发表的论文进行统计，某个科研学者所发表的论文集合可以表示为Rⁱ＝(P¹,P²,P^j,...,Pⁿ)，对其发表的n篇论文中，基于粗聚类方法得到的论文标签，统计其发表的所有论文中各个标签对应的论文数，得到带权重的学者的维度向量；学者的带权维度向量Hⁱ计算为：

Hⁱ＝sum(cate(P^j))

步骤7.2：对带权科研学者维度向量计算前k个作为该学者的最终画像维度也就是，科研学者画像维度计算方法为：

最终构建得到的科研学者的画像维度；

所述函数cate(P^j)为：

对不同的摘要簇分别提取出每篇摘要中的关键词得到每个摘要簇的关键词表征:

对摘要簇中的关键字进行词频统计，将摘要簇的关键字表征转化为向量化的词频表征并排序，摘要簇的类别标注为：

Cate(P^j)＝max(sort(sum(P^j)))。

4.如权利要求2所述的一种科研学者画像的快速表征方法,其特征在于所述步骤5中粗聚类的方法为：

摘要簇的中心μ_j按照如下的方法计算：

其中N(a_j)表示属于簇a_j中的样本个数，x_i表示第i篇摘要的TF-IDF向量；

将每篇摘要文本重新划分到一个类，使用的是摘要文本向量到各个类中心的距离最短的原则，这个距离计算为：

μ_j的第i个分量，n表示μ_j分量的总数，第一次实施聚类将随机指定摘要文本属于某个摘要簇，经过两次迭代后，得到互不相交的摘要簇。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010040201.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种锂离子电池硅碳复合负极材料复合导电剂、负极片及其制备方法
下一篇：视频缓存方法、装置、终端及存储介质

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top