[发明专利]一种基于标签分层延深建模的企业画像方法有效

专利信息
申请号: 202011303829.0 申请日: 2020-11-19
公开(公告)号: CN112580332B 公开(公告)日: 2022-07-12
发明(设计)人: 李翔;丁行硕;王媛媛;朱全银;高尚兵;王留洋;马甲林;张柯文;成洁怡 申请(专利权)人: 淮阴工学院
主分类号: G06F40/216 分类号: G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 梁耀文
地址: 223005 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 标签 分层 建模 企业 画像 方法
【权利要求书】:

1.一种基于标签分层延深建模的企业画像方法,其特征在于,具体步骤如下:

(1)对企业标签数据集D和企业多源数据集D1进行去重、去空,清洗后得到企业数据集D2和D3;

(2)统计和筛选数据集D2,筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据;

(3)构建Bert模型,将数据集D4作为模型的输入,在进行语义学习后,使用softmax层进行第一层标签的分类延深;

(4)将D3数据集中的企业名称、企业简介、经营范围信息整合,分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取,然后对抽取后的关键词进行处理,将处理后的词作为分类延深后第二层的延深标签具体包含以下步骤:

(4.1)数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围;

(4.2)定义D6为待整合数据集,len(D6)为D6中待整合文本数量,D6={T1,T2,…,Ta,…,Tlen(D6)};

(4.3)将企业名称、企业简介、经营范围信息整合,整合后企业文本为content4,且满足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1为单个整合后文本,D7为整合后企业数据集;

(4.4)对影响抽取结果的词语进行统计,建立停用词词典;

(4.5)通过收集企业领域专业词汇建立企业字典;

(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K1集合;

(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K2集合;

(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K3集合;

(4.9)对抽取出的K1、K2和K3关键词集合进行合并,得到关键词集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi为单个企业关键词集合,ilen(D7);

(4.10)将抽取出的关键词Wi作为分类延深后第二层的延深标签;

(4.11)统计获得的标签,按照层次关系为企业打上所有标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011303829.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top