[发明专利]产业链构建方法、设备及存储介质在审
申请号: | 202210254413.7 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114595330A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 夏晓东;戴晔;严世振;储建洲;钱雨辰 | 申请(专利权)人: | 江苏风云科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/284;G06F40/216;G06F40/35 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 产业链 构建 方法 设备 存储 介质 | ||
本申请涉及一种产业链构建方法、设备及存储介质,属于计算机技术领域,其包括将产业链识别词输入预先训练的词联想模型,得到词汇集合;确定词汇集合中每个产业链词汇与企业词汇之间的关联度矩阵;基于关联度矩阵的矩阵信息确定产业链词汇与企业词汇之间的关联程度;对于关联程度大于或等于预设程度阈值的一组产业链词汇和企业词汇,将企业词汇所属的企业样本数据的标签设置为产业链词汇对应的产业链识别词;使用训练得到的词联想模型构建待处理企业数据的产业链;可以提高产业链构建的准确性和全面性;解决模糊匹配的数据结果的不全面和不准确、匹配的数据结果的匹配度高低以及各数据结果之间的关联度问题。
【技术领域】
本申请涉及一种产业链构建方法、设备及存储介质,属于计算机技术领域。
【背景技术】
企业的产业链往往可以反映企业的经营能力,基于此,用户往往需要根据企业数据识别对应的产业链。
传统的产业链构建方法,包括:用户对获取到的样本企业数据打标签,得到对应的产业链识别词;使用样本企业数据和对应的产业链识别词训练得到产业链构建模型,以识别企业数据对应的产业链。
然而,人工打标签存在数据标记不全的情况,这就会导致产业链构建模型的识别效果不佳的问题。
【发明内容】
本申请提供了一种产业链构建方法、设备及存储介质,可以解决人工构建产业链识别词有限,导致产业链识别词覆盖不全的问题、同时可以解决模糊匹配的数据结果的不全面和不准确问题、匹配的数据结果的匹配度高低问题以及各数据结果之间的关联度问题。本申请提供如下技术方案:
一方面,提供一种产业链构建方法,所述方法包括:
获取人工定义的产业链识别词;
获取企业样本数据;
使用已有数据集训练词联想模型,所述词联想模型用于生成所述已有数据集中每个词汇的关联词汇;
对所述企业样本数据进行处理,得到企业词汇;
将所述产业链识别词输入所述词联想模型,得到所述产业链识别词的词汇集合;
确定所述词汇集合中每个产业链词汇与所述企业词汇之间的关联度矩阵;
基于所述关联度矩阵的矩阵信息,确定所述产业链词汇与所述企业词汇之间的关联程度;
对于关联程度大于或等于预设程度阈值的一组产业链词汇和企业词汇,将所述企业词汇所属的企业样本数据的标签设置为所述产业链词汇对应的产业链识别词;
确定识别出的产业链识别词是否符合预设训练要求;
在所述识别出的产业链识别词符合所述预设训练要求的情况下,使用训练得到的词联想模型构建待处理企业数据的产业链。
可选地,所述使用已有数据集训练词联想模型,包括:
将所述已有数据集输入预先构建的词向量生成模型,得到词向量空间;
将所述已有数据集输入预训练得到的BERT模型,得到所述已有数据集的词语表述分布;
获取基于所述词语表述分布输入的语义修正操作;
基于所述语义修正操作修正所述词向量空间的上下文语义,得到修正后的词向量空间;
使用修正后的词向量空间修正所述词向量生成模型,得到所述词联想模型。
可选地,所述矩阵信息包括至少两种;所述基于所述关联度矩阵的矩阵信息,确定所述产业链词汇与所述企业词汇之间的关联程度,包括:
获取每种矩阵信息对应的信息权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏风云科技服务有限公司,未经江苏风云科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254413.7/2.html,转载请声明来源钻瓜专利网。