[发明专利]一种基于标签分层延深建模的企业画像方法有效

申请号：	202011303829.0	申请日：	2020-11-19
公开（公告）号：	CN112580332B	公开（公告）日：	2022-07-12
发明（设计）人：	李翔;丁行硕;王媛媛;朱全银;高尚兵;王留洋;马甲林;张柯文;成洁怡	申请（专利权）人：	淮阴工学院
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	梁耀文
地址：	223005 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签分层建模企业画像方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于标签分层延深建模的企业画像方法，其特征在于，具体步骤如下：

(1)对企业标签数据集D和企业多源数据集D1进行去重、去空，清洗后得到企业数据集D2和D3；

(2)统计和筛选数据集D2，筛选出不能完整概括企业特点的标签数据集，将其定义为D4，并统计出所有标签集合作为延深依据；

(3)构建Bert模型，将数据集D4作为模型的输入，在进行语义学习后，使用softmax层进行第一层标签的分类延深；

(4)将D3数据集中的企业名称、企业简介、经营范围信息整合，分别使用TextRank、TF-IDF、LDA主题模型进行关键词抽取，然后对抽取后的关键词进行处理，将处理后的词作为分类延深后第二层的延深标签具体包含以下步骤：

(4.1)数据集D3＝{T₁,T₂,…,T_b1,…,T_len(D3)}，且T＝{id,content1,content2,content3}，其中id,content1,content2，content3分别为企业序号、企业名称、企业简介和企业经营范围；

(4.2)定义D6为待整合数据集，len(D6)为D6中待整合文本数量，D6＝{T₁,T₂,…,T_a,…,T_len(D6)}；

(4.3)将企业名称、企业简介、经营范围信息整合，整合后企业文本为content4，且满足T1＝{id,content4}，D7＝{T1₁,T1₂,…,T1_a,…,T1_len(D7)}，其中T1为单个整合后文本，D7为整合后企业数据集；

(4.4)对影响抽取结果的词语进行统计，建立停用词词典；

(4.5)通过收集企业领域专业词汇建立企业字典；

(4.6)使用TextRank对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K1集合；

(4.7)然后使用TF-IDF对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K2集合；

(4.8)最后使用LDA主题模型对D7企业整合数据集中所有名词进行关键词抽取，得到抽取结果K3集合；

(4.9)对抽取出的K1、K2和K3关键词集合进行合并，得到关键词集合K，其中K＝{W₁,W₂,…,W_i,…,W_len(D7)}，W_i为单个企业关键词集合，ilen(D7)；

(4.10)将抽取出的关键词W_i作为分类延深后第二层的延深标签；

(4.11)统计获得的标签，按照层次关系为企业打上所有标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淮阴工学院，未经淮阴工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011303829.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载