[发明专利]一种用户阅读兴趣主题漂移的检测方法有效
| 申请号: | 201910044903.2 | 申请日: | 2019-01-17 |
| 公开(公告)号: | CN109857857B | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 周鋆;王培超;顾伟;李旻浩;张维明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06F40/216 |
| 代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 阅读 兴趣 主题 漂移 检测 方法 | ||
本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集,对各文档数据集中的文档进行分词、向量表示等处理后,利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模,基于文档主题生成模型输出的数据,以其中一个文档数据集为参照对象,计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度,从而实现对用户阅读兴趣改变的检测,可以用于后续广告推送策略的配置。
技术领域
本发明涉及网络用户阅读的文本信息处理技术领域,尤其是涉及一种用户阅读兴趣主题漂移的检测方法。
背景技术
网络已经成为我们工作生活中最重要的工具之一,对网络用户行为的建模,特别是对网络用户阅读、处理的文本数据进行建模分析,感知其变化,对于实现网络服务的精准推送(如互联网定向广告服务等)具有十分重要的意义。
文本数据处理的发展历史可以追溯到20世纪50年代末,Luhn H.P.首次提出词频统计的思想。截至目前已经取得了长足的发展,包括文本分类、文本聚类、关联分析、趋势预测等文本挖掘技术,并被广泛应用于情报分析、个性化新闻推送等各个领域。
目前,经典的方法由Anderson等人提出,其核心思想是对用户历史数据进行挖掘,构建了用户个人行为模型,通过评估用户当前行为与其正常行为模式的偏离程度来判断行为是否异常。这种方法需要对用户行为进行全面刻画,模型计算较为复杂。另外还需要正常行为的历史数据作为支撑,具有一定的局限性。
现有的文本挖掘方法侧重于对用户阅读兴趣的建模,特别是兴趣爱好的主题归类,缺乏对兴趣爱好漂移的检测,从而对于用户兴趣的改变不能实时捕捉,导致广告推送失效等问题。
发明内容
针对现有技术存在的缺陷,本发明提出了一种用户阅读兴趣主题漂移的检测方法,可以与现有的互联网服务进行融合,显著提升服务推送的准确率。
为实现上述技术目的,本发明采用的具体技术方案如下:
一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt;
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt;
S3.5计算文本主题的漂移度m
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910044903.2/2.html,转载请声明来源钻瓜专利网。





