[发明专利]一种基于企业网络的企业业务相似度计算方法与系统有效
| 申请号: | 201510464248.8 | 申请日: | 2015-07-31 |
| 公开(公告)号: | CN105183767B | 公开(公告)日: | 2018-07-20 |
| 发明(设计)人: | 刘士军;潘丽;武蕾 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
| 地址: | 250061 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 企业 网络 业务 相似 计算方法 系统 | ||
1.一种基于企业网络的企业业务相似度计算方法,其特征是,包括以下步骤:
步骤一:数据集爬取和构建:通过爬虫将网站页面上的企业信息爬取下来,对爬取下来的配套信息进行分词匹配,并为企业信息对应的供应商和匹配出来的制造商建立供应关系;
步骤二:构建企业网络:企业网络的数据结构为有向图,采用的数据集主要包括企业信息和企业之间的供应关系信息,因此将数据集转换成有向图结构,并导入到图数据库中,将数据集中的每个企业作为节点加入到图数据库中,根据数据集中每条企业的供应关系在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边;
步骤三:企业业务相似度计算:根据已经构造出来的企业网络,通过计算任意两个制造商之间的共用供应商在总的供应商中所占的比例进行企业业务相似度计算;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;
步骤四:构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度,基于新的图S进行企业业务相似度查询;
所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过程,主要步骤如下:
1)通过爬虫技术将B2B网站的相关信息爬取下来,主要包括企业名称、主营产品、配套客户、厂家地址信息;
2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配;
3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法将配套客户信息中的企业名称匹配出来,在一条记录中保存供应商名称和制造商名称,从而建立供应商到制造商的供应关系;
所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要为在图数据库中建立企业节点和企业之间的关系边。
2.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法,其特征是,所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的业务相似度,计算公式为:
SHARE=|P(ENTi)∩P(ENTj)|
3.如权利要求1所述的一种基于企业网络的企业业务相似度计算方法,其特征是,在图数据库中计算企业业务相似度主要步骤如下:
(1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;
(2)针对每一个标签为“OK”的企业,获取其id,进行(3)-(6);
(3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;
(4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目SHARE,针对每一制造商Q,进行(5)-(6);
(5)根据制造商Q的编号qid,计算该制造商的拥有的供应商数目qnum;
(6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关系类型为Similar,其相似度属性名为SIM,值为SIMpq;
7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510464248.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种袋制黄豆芽的方法
- 下一篇:一种活性炭滤芯及其制备方法





