[发明专利]内容推荐系统有效
申请号: | 201310076147.4 | 申请日: | 2013-03-11 |
公开(公告)号: | CN104050163B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 江颖;沈超;钟山;张馨 | 申请(专利权)人: | 广州帷策智能科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市兰锋知识产权代理事务所(普通合伙)44419 | 代理人: | 曹明兰 |
地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 推荐 系统 方法 | ||
1.一种内容推荐系统,其特征在于,该系统包括:
断词模块:用于对资料库中的文件进行断词;
提取模块:用于过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度作为依据,提取出文件的关键词;
统计模块:用于统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度作为依据,筛选出用户的兴趣关键词;及
检索模块:用于根据用户的兴趣关键词从资料库中检索文件,并根据兴趣关键词在文件中的比重来计算文件的关注度,以关注度作为依据选取文件返回给用户;
所述提取模块先根据常用词词库对断词结果进行过滤,再利用加权法计算过滤后的词的重要程度,并根据每个词的重要程度进行降序排列,取前m个词作为文件的关键词,将提取的关键词记录在文件关键词记录表中,该表的栏位包括文件ID、项次、关键词、重要程度,其中,所述词的重要程度=该词在文字正文出现的次数×正文权重+该词在标题中出现次数×标题权重;
所述统计模块获取用户最近一个时间范围的历史记录,根据历史记录内文件ID查询文件关键词记录表,汇总查询结果的关键词及每个关键词的重要程度,根据该重要程度计算每个关键词的适合度,以适合度对关键词降序排序,取前r个关键词作为兴趣关键词,将筛选的兴趣关键词记录在用户兴趣关键词记录表中,该表栏位包括用户ID、项次、兴趣关键词、适合度,其中,所述适合度为筛选兴趣关键词的依据,计算公式为:
其中,Feq为汇总查询结果的关键词的重要程度,K为k天内标题出现该关键词的文件篇数,N为n天内的文件总篇数。
2.如权利要求1所述的内容推荐系统,其特征在于,该系统还包括解析模块,用于将资料库中的文件解析为具有标题及文字正文的结构性的文字信息以便后续断词。
3.如权利要求1所述的内容推荐系统,其特征在于,所述断词模块在对中文文字信息断词时采用混合式断词法,即先用规则式词库断词法对文字信息进行第一阶段的断词,再用统计式断词法对第一阶段断词后的断词结果进行频率统计,列出所有可能的词。
4.如权利要求1所述的内容推荐系统,其特征在于,所述检索模块从资料库中检索出文件标题与兴趣关键词匹配的文件,根据兴趣关键词及适合度计算出检索结果中各文件的关注度,以关注度降序排序,获取前s个文件返回给用户,其中,所述文件的关注度是指兴趣关键词在文件标题中的比重,计算公式为:文件关注度=Σ(兴趣关键词在文件标题出现次数×该兴趣关键词的适合度)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州帷策智能科技有限公司,未经广州帷策智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310076147.4/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法