[发明专利]一种基于标签分层延深建模的企业画像方法有效
申请号: | 202011303829.0 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112580332B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 李翔;丁行硕;王媛媛;朱全银;高尚兵;王留洋;马甲林;张柯文;成洁怡 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 分层 建模 企业 画像 方法 | ||
1.一种基于标签分层延深建模的企业画像方法,其特征在于,具体步骤如下:
(1)对企业标签数据集D和企业多源数据集D1进行去重、去空,清洗后得到企业数据集D2和D3;
(2)统计和筛选数据集D2,筛选出不能完整概括企业特点的标签数据集,将其定义为D4,并统计出所有标签集合作为延深依据;
(3)构建Bert模型,将数据集D4作为模型的输入,在进行语义学习后,使用softmax层进行第一层标签的分类延深;
(4)将D3数据集中的企业名称、企业简介、经营范围信息整合,分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取,然后对抽取后的关键词进行处理,将处理后的词作为分类延深后第二层的延深标签具体包含以下步骤:
(4.1)数据集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分别为企业序号、企业名称、企业简介和企业经营范围;
(4.2)定义D6为待整合数据集,len(D6)为D6中待整合文本数量,D6={T1,T2,…,Ta,…,Tlen(D6)};
(4.3)将企业名称、企业简介、经营范围信息整合,整合后企业文本为content4,且满足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1为单个整合后文本,D7为整合后企业数据集;
(4.4)对影响抽取结果的词语进行统计,建立停用词词典;
(4.5)通过收集企业领域专业词汇建立企业字典;
(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K1集合;
(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K2集合;
(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取,得到抽取结果K3集合;
(4.9)对抽取出的K1、K2和K3关键词集合进行合并,得到关键词集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi为单个企业关键词集合,ilen(D7);
(4.10)将抽取出的关键词Wi作为分类延深后第二层的延深标签;
(4.11)统计获得的标签,按照层次关系为企业打上所有标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011303829.0/1.html,转载请声明来源钻瓜专利网。