[发明专利]产业链构建方法、设备及存储介质在审
申请号: | 202210254413.7 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114595330A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 夏晓东;戴晔;严世振;储建洲;钱雨辰 | 申请(专利权)人: | 江苏风云科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/284;G06F40/216;G06F40/35 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 产业链 构建 方法 设备 存储 介质 | ||
1.一种产业链构建方法,其特征在于,所述方法包括:
获取人工定义的产业链识别词;
获取企业样本数据;
使用已有数据集训练词联想模型,所述词联想模型用于生成所述已有数据集中每个词汇的关联词汇;
对所述企业样本数据进行处理,得到企业词汇;
将所述产业链识别词输入所述词联想模型,得到所述产业链识别词的词汇集合;
确定所述词汇集合中每个产业链词汇与所述企业词汇之间的关联度矩阵;
基于所述关联度矩阵的矩阵信息,确定所述产业链词汇与所述企业词汇之间的关联程度;
对于关联程度大于或等于预设程度阈值的一组产业链词汇和企业词汇,将所述企业词汇所属的企业样本数据的标签设置为所述产业链词汇对应的产业链识别词;
确定识别出的产业链识别词是否符合预设训练要求;
在所述识别出的产业链识别词符合所述预设训练要求的情况下,使用训练得到的词联想模型构建待处理企业数据的产业链。
2.根据权利要求1所述的方法,其特征在于,所述使用已有数据集训练词联想模型,包括:
将所述已有数据集输入预先构建的词向量生成模型,得到词向量空间;
将所述已有数据集输入预训练得到的BERT模型,得到所述已有数据集的词语表述分布;
获取基于所述词语表述分布输入的语义修正操作;
基于所述语义修正操作修正所述词向量空间的上下文语义,得到修正后的词向量空间;
使用修正后的词向量空间修正所述词向量生成模型,得到所述词联想模型。
3.根据权利要求1所述的方法,其特征在于,所述矩阵信息包括至少两种;所述基于所述关联度矩阵的矩阵信息,确定所述产业链词汇与所述企业词汇之间的关联程度,包括:
获取每种矩阵信息对应的信息权重;
计算各个矩阵信息的量化值与对应的信息权重的乘积之和,得到所述关联程度。
4.根据权利要求3所述的方法,其特征在于,所述矩阵信息包括以下信息中的至少两种:
所述关联度矩阵中的关联度;
所述关联度矩阵的方差;
所述关联度矩阵的均值;
所述关联度矩阵的维度;以及
所述关联度矩阵中每个关联度对应的词性。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在关联程度大于或等于预设程度阈值的产业链词汇和企业词汇为至少两组的情况下,获取所述产业链识别词的细分搜索词和所述细分搜索词的关联权重,所述关联权重用于指示所述细分搜索词与不同企业词汇之间的关联程度;
基于所述关联权重从至少两组产业链词汇和企业词汇中筛选出一组产业链词汇和企业词汇。
6.根据权利要求5所述的方法,其特征在于,所述基于所述关联权重从至少两组产业链词汇和企业词汇中筛选出一组产业链词汇和企业词汇,包括:
获取每个企业词汇与细分搜索词之间的关联度;
将每个企业词汇和细分搜索词输入预设的正则表达式,得到匹配结果;所述匹配结果包括匹配和不匹配;
结合所述关联权重、所述关联度和所述匹配结果,计算每组产业链词汇和企业词汇的关联分值;
从至少两组产业链词汇和企业词汇中筛选出关联分值最高的一组产业链词汇和企业词汇。
7.根据权利要求1所述的方法,其特征在于,所述对所述企业样本数据进行处理,得到企业词汇,包括:
对所述企业样本数据进行分词处理,得到所述企业词汇;
或者,
对所述企业样本数据进行分词处理及语法分析;去除语法不正确的企业样本数据,得到所述企业词汇;
或者,
对所述企业样本数据进行分词处理,并去除所述企业样本数据中的否定表述,得到所述企业词汇。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述识别出的产业链识别词不符合所述预设训练要求的情况下,对所述词联想模型进行调整,并触发执行所述使用已有数据集训练词联想模型的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏风云科技服务有限公司,未经江苏风云科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254413.7/1.html,转载请声明来源钻瓜专利网。