[发明专利]一种用户阅读兴趣主题漂移的检测方法有效
| 申请号: | 201910044903.2 | 申请日: | 2019-01-17 |
| 公开(公告)号: | CN109857857B | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 周鋆;王培超;顾伟;李旻浩;张维明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06F40/216 |
| 代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用户 阅读 兴趣 主题 漂移 检测 方法 | ||
1.一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理;
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt;
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt;
S3.5计算文本主题的漂移度m:
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
2.根据权利要求1所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.1中,文档数据集A和文档数据集B是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
3.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.2中,分词还包括各份文档分词后得到的一系列词进行停用词消除。
4.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S2中,将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910044903.2/1.html,转载请声明来源钻瓜专利网。





