[发明专利]基于跨表数据挖掘的科技资源推荐方法有效
申请号: | 202110814971.X | 申请日: | 2021-07-19 |
公开(公告)号: | CN113360776B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 肖国强;唐小琴;王晓蒙;吴松;程天宇 | 申请(专利权)人: | 西南大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958;G06F16/22;G06F16/2458;G06F16/248;G06F16/26;G06F16/31;G06F16/335;G06F16/338;G06F16/34;G06F40/216;G06F40/284;G06F40/289 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 挖掘 科技 资源 推荐 方法 | ||
本发明公开了一种基于跨表数据挖掘的科技资源推荐方法,该方法通过前期数据语义分析,挖掘跨表数据或多对象属性之间的相关性,确定用于NLP主题模型的输入数据字段,在一定程度上优化了多对象之间的数据交流模式;通过采用的神经网络主题模型结构简洁,且无需先验假设,通过训练可获得质量更高的主题表示;通对多对象推荐结果根据推荐指数和对象种类,进行不同大小和颜色的图模型展示及可视化,可实现推荐结果的直观、有效、合理显示,提升用户体验。
技术领域
本发明涉及一种基于跨表数据挖掘的科技资源推荐方法。
背景技术
科技资源在国民经济发展中愈发重要,在科技活动中的共享和利用程度也得到相关部门和企业的高度重视,资源的多维大数据特征得以突显。
科技资源具有领域性强、数据分散、地域性强的特点,当前的通用性推荐算法(如用户行为分析、协同过滤技术等)在实际的资源共享平台中的应用效果不佳,资源推荐准确率偏低。隐语义分析技术是一种基于机器学习的一系列方法,具有比较好的理论基础,目前部分算法在推荐系统中已经得到应用和肯定。但是,目前的推荐方法均不能进行跨表数据挖掘,从而实现基于多维度数据向企业准确推荐科技资源。
发明内容
本发明的目的是提供一种基于跨表数据挖掘的科技资源推荐方法,能够为企业自动推荐科技资源。
为解决上述技术问题,本发明提供一种基于跨表数据挖掘的科技资源推荐方法,包括步骤:
S1:构建包括企业、人才、项目、平台和仪器设备属性数据的对象表,选取与对象表中各对象属性相关性最高的关联对象作为跨表数据交流的信息通道;
S2:从所述对象表中提取与关联对象的属性数据对应的属性数据,并根据提取出的属性数据构建NLP主题模型形成文档数据;
S3:对所述文档数据进行分词处理,然后将分词后的文档数据输入创建好的神经网络主题模型NTM进行训练,求得文档-主题分布θ和主题-词汇分布φ及对应的权重矩阵Wθ和Wφ,并生成隐含层对应每个主题下的词汇集及其出现概率;
S4:通过训练好的主题-词汇分布求出与用户搜索的关键词匹配度最高的主题t*;再根据要求返回的对象,计算主题t*对应词汇集出现在每个对象文档数据d的概率然后对计算结果进行从大到小排序后将对应的对象ID作为推荐系数返回给企业用户。
进一步地,所述步骤S2具体包括:提取企业-业务范围数据、项目-名称数据、人才-熟悉学科数据、仪器设备-主要功能数据和平台-研究方向数据输入NLP主题模型形成文档数据;其中,每个记录或样本对应的数据定义为一个文档数据d={d1,d2,...dN},N表示文档总数。
进一步地,所述步骤S3具体包括:
S31:对文档集d进行n-gram分词得到词汇集g,构建神经网络主题模型NTM,并将每个文档集d及其n-gram词汇集g作为神经网络主题模型NTM的输入层;
S32:添加n-gram词向量层,定义词向量维度为300,将每个词汇集g转换成数字向量le(g)进行表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110814971.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置