[发明专利]一种基于时空属性的实体竞争关系数据挖掘方法有效
| 申请号: | 201910388351.7 | 申请日: | 2019-05-10 |
| 公开(公告)号: | CN110110013B | 公开(公告)日: | 2020-03-24 |
| 发明(设计)人: | 乔少杰;李艾鲜;温敏;韩楠;魏军林;丁超;程维杰;叶青;彭京;周凯;徐小玲 | 申请(专利权)人: | 成都信息工程大学;四川省金科成地理信息技术有限公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/951;G06F40/284 |
| 代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊;陈选中 |
| 地址: | 610225 四川省成都市双*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时空 属性 实体 竞争 关系 数据 挖掘 方法 | ||
1.一种基于时空属性的实体竞争关系数据挖掘方法,其特征在于,包括以下步骤:
S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据;
S2、对实体的用户评论数据进行预处理;
S3、采用LDA对预处理后实体的用户评论数据进行主题提取,得到用户评论主题;
S4、根据用户评论主题构建主题-特征匹配规则,并根据主题-特征匹配规则计算得到实体的主题-特征匹配值;
S5、根据实体的经纬度数据计算得到实体距离量化值;
S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值;
S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值;
S8、根据实体相似度量化值计算得到实体竞争关系量化值;
S9、对实体竞争关系量化值进行归一化处理,得到实体竞争关系数据;
所述步骤S5包括以下分步骤:
S51、根据实体的经纬度数据计算实体两两之间的实际距离Disij,其中Disij表示第i个实体entityi和第j个实体entityj之间的实际距离,i=1,2,...,m;j=1,2,...,m,m为实体总数;
S52、设置空间阈值d,将实际距离小于空间阈值d的两个实体entityi和entityj定义为相邻实体neighbor(entityi,entityj);
S53、以相邻实体neighbor(entityi,entityj)作为聚类初始值,采用KNN算法对实际距离Disij进行聚类,得到簇C={C1,C2,C3,...,Cn};
S54、根据簇C计算得到地理位置信息影响因子α={α1,α2,α3,...,αn},计算公式为:
其中n为簇的个数,Cl表示第l个簇内点的数量;
S55、根据地理位置信息影响因子α和实际距离Disij计算得到实体距离量化值F(Disij):
F(Disij)=α·Disij (6)
所述步骤S6包括以下分步骤:
S61、以周为单位对实体的用户评论时间数据进行划分,在每周内将实体的用户评论时间数据分为工作日week1和假期week2,得到集合G1={week1,week2},并根据集合G1计算得到短期时间属性因子βn:
其中weekn(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G1中的类别;
S62、以月为单位将实体的用户评论时间数据划分为12类,得到集合G2={month1,month2,...,month12},并根据集合G2计算得到中长期时间属性因子γj:
其中monthj(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G2中的类别;
S63、以季度为单位将实体的用户评论时间数据划分为4类,得到集合G3={quarter1,quarter2,quarter3,quarter4},并根据集合G3计算得到长期时间属性因子θk:
其中quarterk(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G3中的类别;
S64、根据短期时间属性因子βn、中长期时间属性因子γj和长期时间属性因子θk计算得到实体时间属性影响力量化值:
H(entityi)=βn+γj+θk (10)
其中H(entityi)表示第i个实体entityi的实体时间属性影响力量化值;
所述步骤S7中实体相似度量化值的计算公式为:
P(entityi)=C(entityi)+F(Disij)+H(entityi) (11)
其中P(entityi)表示第i个实体entityi的实体相似度量化值,C(entityi)表示第i个实体entityi的主题-特征匹配值,F(Disij)表示第i个实体entityi和第j个实体entityj之间的实体距离量化值,H(entityi)表示第i个实体entityi的实体时间属性影响力量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数;
所述步骤S8中实体竞争关系量化值的计算公式为:
其中表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,P(entityi)表示第i个实体entityi的实体相似度量化值,P(entityj)表示第j个实体entityj的实体相似度量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;四川省金科成地理信息技术有限公司,未经成都信息工程大学;四川省金科成地理信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910388351.7/1.html,转载请声明来源钻瓜专利网。





