[发明专利]一种面向学者的用户画像构建及应用方法有效
申请号: | 201910976349.1 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110968782B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王大玲;陈英豪;冯时;张一飞 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/955;G06F40/216;G06F40/289 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 学者 用户 画像 构建 应用 方法 | ||
本发明提供一种面向学者的用户画像构建及应用方法。首先,从国内学者的个人主页上获取学者基本信息,从国内外著名学术网站上获取学者的研究信息,在此基础上对上述信息进行预处理,从而获得构建学者画像所需的语料库;之后,通过对学者基本属性和研究属性的挖掘,构建学者画像;最后,基于学者画像,实现学者搜索与专家发现、论文审稿人推荐、合作学者推荐等应用。该发明对于学者寻找项目和论文工作的合作者、学术会议和期刊主办者寻找论文审稿人、以及刚刚从事一个新的研究领域的入门者寻找领域的资深学者,均具有支持和帮助作用。
技术领域
本发明涉及知识管理及应用领域,主要涉及一种基于学术资源、面向学者的用户画像构建方法及基于用户画像的学术资源搜索、推荐等应用技术,具体涉及一种面向学者的用户画像构建及应用方法。
背景技术
用户画像是基于用户的属性、兴趣、社会关系等信息构建的用户模型。作为一类特定的用户画像,学者画像将更侧重于学术方向、研究领域、发表论文、从事科研项目及与其他学者的合作关系等内容。学者画像是一个近些年才产生的概念,但其中涉及的技术,包括学术信息抽取、研究兴趣挖掘、社交网络挖掘等技术,则早已被提出和研究,并且在国内外已有成熟的学者画像构建系统,在推动学术发展等方面取得了很好的效果。
在学者画像涉及的技术方面,对于信息抽取,早期的研究工作主要集中在从一些特定结构的文档中抽取信息。随着互联网的发展,很多有价值的信息都包含在相关网页中,因此越来越多的学者开始关注于从大数据量的网页中直接抽取有用信息。目前,国际上比较著名的学术资源网站DBLP,是计算机领域内以科研学者为核心的一个英文文献集成网站,它在一定程度上完成了学者的研究属性,尤其是学术论文、合作学者、相关会议等属性画像的构建,并且实现了较好的姓名消歧工作。在国内,清华大学的Aminer,是一个基于学者画像的新型在线学术搜索与挖掘系统,它完成了从开放互联网中进行研究者属性抽取、学者姓名消歧、信息集成、研究兴趣挖掘、学术网络挖掘等各项构建学者画像的相关工作,并且成功地对异构实体进行建模,从而提供了基于主题的搜索、学术影响力分析、跨领域合作推荐以及学术相似性分析等各种上层应用。上海交通大学AceMap,则将更多地精力放在了深入探究学者变迁和科研项目的发展方向领域,他们在对国内人才项目进行立体学术画像的基础上,着重对信息科学部进行深入剖析,研究信息科学部下各个子学科的合作关系和发展方向,并且搜集研究了科研学者们不同时期所在机构的变迁情况。
发明内容
基于上述研究成果,本发明提出一种基于学术资源、主要面向国内学者的用户画像构建方法,以及几种基于用户画像的学术资源搜索与推荐等应用技术。首先,从国内学者的个人主页上获取学者基本信息,从国内外著名学术网站上获取学者的研究信息,在此基础上对上述信息进行预处理,从而获得构建学者画像所需的语料库;之后,通过对学者基本属性和研究属性的挖掘,构建学者画像;最后,基于学者画像,实现学者搜索与专家发现、论文审稿人推荐、合作学者推荐等应用。
本发明是基于学术资源、面向学者的用户画像构建方法及基于用户画像的学术资源搜索、推荐等应用技术,应用Web数据获取、文本挖掘、个性化搜索与推荐技术,提出有效的学者画像构建、展示及应用方法。与相关工作相比,本发明的特色在于面向国内学者、规则与机器学习技术相结合的方法、不同的学术资源推荐模式以及画像及应用结果的展示。
针对国内不同层次的学者和专家对于学术资源的个性化需求,本发明提供了一种基于学术资源的学者画像构建方法以及几种基于学者画像的学术资源搜索、推荐等应用。
本发明提出了一种面向学者的用户画像构建及应用方法,包括以下步骤:
步骤1:构建学术资源语料库,通过对来自Web上学者数据的获取及处理,构建学术资源语料库,具体步骤如下:
(1)获取学者基本信息,通过对目标网站的结构信息的分析,获取学者的基本信息的文本内容,所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910976349.1/2.html,转载请声明来源钻瓜专利网。