[发明专利]一种科研学者画像的快速表征方法有效
申请号: | 202010040201.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241283B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蔡世民;王锐杰;李健强 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06F40/284;G06F40/216;G06F16/35;G06F18/25 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科研 学者 画像 快速 表征 方法 | ||
该发明公开了一种科研学者画像的快速表征方法,涉及数据挖掘领域。该发明在数据库中用多字段联合查询,通过数据融合匹配的方式将多个分散数据集结合,形成了科研学者s与摘要文本a之间的一对多关系;对全数据集的摘要语料进行相应的文本向量表示,以此作为表征学者画像维度差异性的关键语料。区别于过去基于统计学基础所构建的学者画像维度,本发明利用机器学习方法,在相关算法的基础上,对于所有摘要文本语料进行了聚类,利用同类结果的相似关系检索关键词字段,经统计排序最终形成画像标签的排序向量集合,用于表征科研学者的研究兴趣。同时,这一排序向量对于科研学者的研究领域相似度计算和社区划分等方面都具有应用价值。
技术领域
本发明涉及数据挖掘领域,特别是学术研究中针对科研学者画像的快速表征方法。
背景技术
随着互联网技术的蓬勃发展,越来越多的用户行为和生产行为数据被我们所记录,在商业、生活和科研领域的数据量都呈现出了爆发式的增加,由此我们迎来了大数据时代。在大数据时代,用户的信息在各式各样的站点和网络中出现,用户画像是一种对目标群体进行详细刻绘、结合相关用途进行画像设计,从而利用相应的标签信息为群体提供服务的有效工具。在学术大数据领域,由于学术数据的日益完善,对于科研学者这一群体的分析挖掘提供了更加丰富的佐证,也为科研学者画像的构建提供了新的思路。
学者的学术画像有助于对学者的研究兴趣、社区划分和影响力评估等方面进行更准确的分析,对于相关的学术推荐和学术合作提供重要依据。由于当前学术数据呈现指数增长趋势,全球学术论文已超过3亿篇,科研学术领域的工作者也已达到1亿人,给科研学者画像带来了更多的机遇和挑战。因此,如果能够提供一种在大规模学术数据集上对科研学者的画像维度进行快速表征的方法,就可以大大减少工作量、并且提高画像的多样性。
近年来,科研学者画像的研究尚处于起步阶段,目前已知的一些画像构建方法有如下缺点:
数据集之间缺乏有效的清洗和融合,在没有对数据孤岛进行有效连通之前,得到的信息往往都以偏概全。因此,采用合理、高效的数据融合方法既可以提升数据的多样性,又可以为科研学者画像的准确性提供保障。
画像构建使用的标签的种类有限。在大量采用直接数据的情况下,缺少对于数据文本的二次利用,也缺乏使用自然语言处理等相关技术对于文本进行再挖掘,从而提取出间接数据。因为,在有限的文本语料中进行充分挖掘可以提升数据价值,这对于画像之间的差异性刻画尤其重要。
传统的画像构建方法大多都从最基本的统计学角度进行分析。缺乏运用当前更加合理准确的人工智能和机器学习领域相关工具解决问题的思考,因此,刻画出的画像维度不够鲜明,对于画像模型真正的应用场景考虑并不周全,难以进行有效的使用。
发明内容
本发明提供了一种科研学者画像的快速表征方法。充分利用科研学者所发表的学术论文数据,通过数据驱动,发明一种能够结合自然语言处理技术和机器学习算法的画像维度快速表征方法,能够对科研学者的研究兴趣的维度进行快速准确的刻画。除此以外,该方法具有自适应性,适用于不同种类不同领域的学术数据集,并且能够对大规模数据集的进行批量处理。
在本发明中,选取了易取、免费的学术论文摘要作为主要语料。在学术论文的结构中,由于论文的摘要是整个文章的精简说明,它用简短文字陈述论文内容,概况出论文的主要观点。因此,摘要文本内容与难以获取的全文文本内容相比,不仅具有很高的挖掘价值,而且易于获取。因此,本发明提供的方法将重心放在学术论文的摘要文本上,利用相关文本挖掘和向量表征方法,结合机器学习中的聚类算法,形成一种通用数据的提取、处理和表征流程,从而提出了一种能够对科研学者画像维度进行快速表征的方法。
本发明所提出的一种科研学者画像的快速表征方法,包括下列步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010040201.X/2.html,转载请声明来源钻瓜专利网。