[发明专利]一种基于BLEU指标的热门信息流推荐方法及装置在审
申请号: | 202210655525.3 | 申请日: | 2022-06-10 |
公开(公告)号: | CN115017412A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李多海 | 申请(专利权)人: | 上海二三四五网络科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 上海海钧知识产权代理事务所(特殊普通合伙) 31330 | 代理人: | 许兰;王睿 |
地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bleu 指标 热门 信息 推荐 方法 装置 | ||
1.一种基于BLEU指标的热门信息流推荐方法,其特征在于,包括:
爬取多个第一资源的资源信息,获取第一信息流内容,所述第一信息流内容具有第一排序;
将第一信息流内容进行数据清洗,得到第一信息流集合,所述第一信息流集合的信息流顺序保留第一排序;
获取第二资源的资源信息,得到第二信息流集合;
将第一信息流集合与第二信息流集合进行笛卡尔积关联,分别计算第一信息流集合中的每条信息流与第二信息流集合中的每条信息流的BLEU相似得分;
为第一信息流集合中的每条信息流在第二信息流集合中筛选出与其相似得分最高的信息,得到第三信息流集合,所述第三信息流集合中信息流的条数与排序与第一信息流集合保持一致;
基于所述第三信息流集合中的信息流向用户终端进行推荐。
2.根据权利要求1所述的一种基于BLEU指标的热门信息流推荐方法,其特征在于,所述第一资源为公开的第三方热门榜单信息流数据。
3.根据权利要求1所述的一种基于BLEU指标的热门信息流推荐方法,其特征在于,在所述爬取多个第一资源的资源信息前,所述方法还包括:从与全网热门话题对应的全网新闻源中筛选出多个目标新闻源,所述目标新闻源中的热榜信息,用于基于网络爬取技术进行实时爬取。
4.根据权利要求1所述的一种基于BLEU指标的热门信息流推荐方法,其特征在于,所述爬取多个第一资源的资源信息,包括:获取预先配置的在线库中各网页的网页文字代码。
5.根据权利要求1所述的一种基于BLEU指标的热门信息流推荐方法,其特征在于,所述数据清洗的规则,包括:去除特殊字符,去除HTML格式,删除过长、过短的文本,繁体转简体,去除包含url、拼音的无意义符号。
6.根据权利要求1所述的一种基于BLEU指标的热门信息流推荐方法,其特征在于,所述第二资源为自有数据库中的全部资讯,所述自有数据库的数据来源于多个预设的新闻源的多个新闻项。
7.一种基于BLEU指标的热门信息流推荐装置,其特征在于,包括:
第一信息流内容获取模块,被配置为爬取多个第一资源的资源信息,获取第一信息流内容,所述第一信息流内容具有第一排序;
第一信息流集合获取模块,被配置为将第一信息流内容进行数据清洗,得到第一信息流集合,所述第一信息流集合的信息流顺序保留第一排序;
第二信息流集合获取模块,被配置为获取第二资源的资源信息,得到第二信息流集合;
相似度计算模块,被配置为将第一信息流集合与第二信息流集合进行笛卡尔积关联,分别计算第一信息流集合中的每条信息流与第二信息流集合中的每条信息流的BLEU相似得分;
第三信息流集合获取模块,被配置为根据第一信息流集合中的每条信息流在第二信息流集合中筛选出与其相似得分最高的信息,得到第三信息流集合,所述第三信息流集合中信息流的条数与排序与第一信息流集合保持一致;
推荐模块,被配置为基于所述第三信息流集合中的信息流向用户终端进行推荐。
8.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行权利要求1-6任一项所述的一种基于BLEU指标的热门信息流推荐方法。
9.一种计算机可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行权利要求1-6任一项所述的一种基于BLEU指标的热门信息流推荐方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海二三四五网络科技有限公司,未经上海二三四五网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210655525.3/1.html,转载请声明来源钻瓜专利网。