[发明专利]基于跨表数据挖掘的科技资源推荐方法有效
申请号: | 202110814971.X | 申请日: | 2021-07-19 |
公开(公告)号: | CN113360776B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 肖国强;唐小琴;王晓蒙;吴松;程天宇 | 申请(专利权)人: | 西南大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958;G06F16/22;G06F16/2458;G06F16/248;G06F16/26;G06F16/31;G06F16/335;G06F16/338;G06F16/34;G06F40/216;G06F40/284;G06F40/289 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 挖掘 科技 资源 推荐 方法 | ||
1.一种基于跨表数据挖掘的科技资源推荐方法,其特征在于,包括步骤:
S1:构建包括企业、人才、项目、平台和仪器设备属性数据的对象表,选取与对象表中各对象属性相关性最高的关联对象作为跨表数据交流的信息通道;
S2:从所述对象表中提取与关联对象的属性数据对应的属性数据,并根据提取出的属性数据构建NLP主题模型形成文档数据;步骤S2具体包括:提取企业-业务范围数据、项目-名称数据、人才-熟悉学科数据、仪器设备-主要功能数据和平台-研究方向数据输入NLP主题模型形成文档数据;其中,每个记录或样本对应的数据定义为一个文档数据d={d1,d2,...,dN},N表示文档总数;
S3:对所述文档数据进行分词处理,然后将分词后的文档数据输入创建好的神经网络主题模型NTM进行训练,求得文档-主题分布θ和主题-词汇分布φ及对应的权重矩阵Wθ和Wφ,并生成隐含层对应每个主题下的词汇集及其出现概率;
S4:通过训练好的主题-词汇分布求出与用户搜索的关键词匹配度最高的主题t*;再根据要求返回的对象,计算主题t*对应词汇集出现在每个对象文档数据d的概率然后对计算结果进行从大到小排序后将对应的对象ID作为推荐系数返回给企业用户。
2.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S3具体包括:
S31:对文档集d进行n-gram分词得到词汇集g,构建神经网络主题模型NTM,并将每个文档集d及其n-gram词汇集g作为神经网络主题模型NTM的输入层;
S32:添加n-gram词向量层,定义词向量维度为300,将每个词汇集g转换成数字向量le(g)进行表示;
S33:创建文档-主题分布θ和主题-词汇分布的两个隐含层ld(d)和lt(g),主题数量为K;其中,ld(d)=softmax(Wθ(d)),lt(g)=sigmoid(le(g)×Wφ),其中权重矩阵Wθ表示N个文档向量在K个主题上的分布,即Wθ∈RN×K,Wθ(d)为文档集d的权重矩阵;Wφ表示主题-词汇层K个主题与词向量层300维词向量之间的权重矩阵,故Wφ∈R300×K。因文档主题个数为K,则ld和lt均是一个K维向量;模型输出为文档集d关于词汇集g的分布概率
S34:将步骤S31中每个样本数据(d,g),和通过统计标注获得的每个词汇集g在文档集d中出现的概率p(g|d)分别作为神经网络主题模型NTM的输入和输出进行训练,获得文档-主题分布θ和主题-词汇分布φ,以及对应的权重矩阵Wθ和Wφ。
3.根据权利要求2所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S31中,文档集d采用unigram和bigrams模型生成词汇集g={g1,g2,...,gV},V表示文档的词汇数量。
4.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,该方法还包括:
S5:采用图结构对步骤S4得到的推荐结果进行可视化。
5.根据权利要求4所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S5具体包括:
S51:依据步骤S3的推荐指数对图节点的大小进行定义,使推荐指数高的对象在图空间的节点面积最大,且距离图空间中该图节点最近。
6.根据权利要求5所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S5还包括:
S52:采用不同的颜色对不同对象进行区分和可视化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110814971.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置