[发明专利]属性词聚类方法及装置有效
申请号: | 201710888988.3 | 申请日: | 2017-09-27 |
公开(公告)号: | CN110019783B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 韩旭红 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性 词聚类 方法 装置 | ||
1.一种属性词聚类方法,其特征在于,包括:
获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;
获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,得到第二属性词关系图;
根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取属性词,构建第一属性词关系图,包括:
获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;
基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
3.根据权利要求1所述的方法,其特征在于,所述获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,包括:
获取评价词,所述评价词来自所述属性词对应的评价词集合;
基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;
基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值这一步骤。
5.根据权利要求1-3中任意一项所述的方法,其特征在于,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数这一步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710888988.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于输出文本类别的方法和装置
- 下一篇:一种文本分类方法及装置