[发明专利]一种用户阅读兴趣主题漂移的检测方法有效
| 申请号: | 201910044903.2 | 申请日: | 2019-01-17 |
| 公开(公告)号: | CN109857857B | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 周鋆;王培超;顾伟;李旻浩;张维明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06F40/216 |
| 代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集,对各文档数据集中的文档进行分词、向量表示等处理后,利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模,基于文档主题生成模型输出的数据,以其中一个文档数据集为参照对象,计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度,从而实现对用户阅读兴趣改变的检测,可以用于后续广告推送策略的配置。 | ||
| 搜索关键词: | 一种 用户 阅读 兴趣 主题 漂移 检测 方法 | ||
【主权项】:
1.一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:S1文本数据采集与处理。S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt;S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt;S3.5计算文本主题的漂移度m
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910044903.2/,转载请声明来源钻瓜专利网。





