[发明专利]基于对象行为和主题偏好的对象划分方法及装置有效
申请号: | 201810496356.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108763400B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 刘业政;朱婷婷;杜非;姜元春;孙见山 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F16/21;G06Q30/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对象 行为 主题 偏好 划分 方法 装置 | ||
本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置。所述方法包括:获取第一数量个目标对象的初始文档集合;利用潜在狄利克雷分布模型获取到所述每个目标对象的主题偏好向量;标准化所述每个目标对象的行为向量;利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合;基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值得到所述每个类别组的特征向量。本发明实施例可以实现对多种不同特征进行建模,有利于确定各目标对象的分类,提高对象划分结果。
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种基于对象行为和主题偏好的对象划分方法及装置。
背景技术
随着在线社交媒体和电子商务网站等的发展,基于目标对象制造内容(UGC)的平台已经变成人们日常生活中不可缺少的部分。基于UGC的平台的发展,为企业带来了巨大的商业机会,可以帮助企业发现需求、研发产品以及进行客户管理等。
相关技术中对上述内容进行处理的过程中,通常会采用主题建模的方式,然后利用主题模型发现上述内容中主题,进而对各目标对象进行分组。然而,目标对象对应多个特征,由于多个特征之间并无相关关系,导致无法对其建立模型,进而导致各目标对象划分组后结果不太准确。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置,用于解决相关技术中目标对象划分组的结果不准确的技术问题。
第一方面,本发明实施例提供了一种基于对象行为和主题偏好的对象划分方法,所述方法包括:
获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。
可选地,将所述每个目标对象的行为向量标准化为标准行为向量包括:
对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv(max)和最小特征Vv(min);
针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
其中,Vv(max),Vv(min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
可选地,所述潜在狄利克雷混合模型包括:
获取每个目标对象的所有特征的联合概率分布,公式为:
获取每个目标对象的角色,公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810496356.7/2.html,转载请声明来源钻瓜专利网。