[发明专利]一种基于LSA的工业知识数据分类与关联方法及其系统在审
申请号: | 202210218074.7 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114637854A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 陈辛明 | 申请(专利权)人: | 徐工汉云技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/33;G06Q50/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 韩红莉 |
地址: | 221122 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lsa 工业 知识 数据 分类 关联 方法 及其 系统 | ||
1.一种基于LSA的工业知识数据分类与关联方法,其特征在于,包括:
接收用户输入的用于分类号查询的关键词;
将接收到的关键词输入构建的潜在语义空间矩阵,计算关键词和分类号查询向量之间的相关度,将相关度按照降序排序后输出,并展示给用户。
2.根据权利要求1所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
构建潜在语义空间矩阵的方法,包括:
1)获取工业知识数据的关键词和分类号,并进行分隔预处理;
2)逐个统计关键词和分类号的共现频次,并生成关键词-分类号矩阵;
3)基于关键词-分类号矩阵,构建潜在语义空间矩阵;
4)收集历史用户关键词和对应的历史分类号查询向量,将该历史分类号查询向量投影到潜在语义空间中,计算关键词和历史分类号查询向量的相关度;
5) 相关度经LSA算法计算降序排序后获得关键词排序结果,将关键词排序结果和工业知识数据相关度的实际值进行比对,更新潜在语义空间矩阵。
3.根据权利要求2所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
分隔预处理,包括:
删除没有分类号只有关键词的工业知识数据;
将工业知识数据中的关键词与分类号分离, 以表格形式记录关键词与分类号的对应关系。
4.根据权利要求2所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
步骤2)逐个统计关键词和分类号的共现频次,并生成对应矩阵,包括:
切分关键词和分类号,生成关键词集合和分类号集合;
逐个统计关键词与分类号共现的次数;
基于关键词与每个分类号之间的共现频次,生成关键词-分类号矩阵。
5.根据权利要求2所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
步骤4)中,包括:
基于余弦公式,计算关键词历史分类号查询向量的相关度。
6.根据权利要求5所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
步骤5) ,相关度经LSA算法计算降序排序后获得关键词排序结果,将关键词排序结果和工业知识数据相关度的实际值进行比对,更新潜在语义空间矩阵,包括:
判断工业知识数据相关度的实际值中是否出现关键词排序结果中的关键词,若出现关键词排序结果中的关键词,则在潜在语义空间矩阵中通过新增一个非 0 的分量表示该关键词排序结果中的关键词,更新潜在语义空间矩阵。
7.根据权利要求2所述的一种基于LSA的工业知识数据分类与关联方法,其特征在于,
步骤1)中,对于已经标引至三位数字甚至更细的分类号, 将该分类号的标引控制在三位数字以内,不足三位数字的分类号保持原分类深度。
8.一种基于LSA的工业知识数据分类与关联系统,其特征在于,用于执行权利要求1所述的方法,包括:
用户查询模块,用于接收用户输入的用于分类号查询的关键词;
相关度计算模块,用于将接收到的关键词输入构建的潜在语义空间矩阵,计算关键词和分类号查询向量之间的相关度,将相关度按照降序排序后输出,并展示给用户。
9.根据权利要求8所述的一种基于LSA的工业知识数据分类与关联系统,其特征在于,包括:
数据分隔处理模块,用于获取工业知识数据的关键词和分类号,并进行分隔预处理;
关键词矩阵模块,用于逐个统计关键词和分类号的共现频次,并生成关键词-分类号矩阵;
奇异值分解模块,用于基于关键词-分类号矩阵,构建潜在语义空间矩阵;
语义空间分析模块,用于将历史分类号查询向量投影到潜在语义空间矩阵中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐工汉云技术股份有限公司,未经徐工汉云技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210218074.7/1.html,转载请声明来源钻瓜专利网。