[发明专利]文章聚合方法及装置在审
申请号: | 201711145235.X | 申请日: | 2017-11-17 |
公开(公告)号: | CN107748802A | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 蒋帅;陈思姣;罗雨;刁世亮 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/24 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 聚合 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种文章聚合方法及装置。
背景技术
目前,互联网上的信息呈爆发式的增长,围绕互联网数据展开的趋势性应用和产品正不断受到关注,例如热点新闻聚合文章。现有技术中,生成热点新闻聚合文章时,是由编辑员从海量的新闻数据中挑选出热点新闻,获取热点新闻中的摘要信息,编辑得到热点新闻聚合文章,费时费力,且得到的热点新闻聚合文章覆盖的热点兴趣点不全面,效率低且准确率低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文章聚合方法,用于解决现有技术中热点新闻聚合文章生成效率低且准确率低的问题。
本发明的第二个目的在于提出一种文章聚合装置。
本发明的第三个目的在于提出另一种文章聚合装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文章聚合方法,包括:
获取搜索日志;所述搜索日志中包括:多个搜索词以及所述搜索词的热度信息;
根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点;
获取满足预设条件的多条新闻数据;
根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数;
针对各个热点兴趣点,获取包括所述热点兴趣点,且包括的所述热点兴趣点的评估分数满足预设分数阈值的至少一条新闻数据,根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章。
进一步的,所述根据所述搜索词的热度信息,获取所述搜索词中的热点兴趣点,包括:
将多个搜索词以及所述搜索词的热度信息,输入预设的热度模型,获取所述搜索词中的热点搜索词;
根据所述热点搜索词,查询预设的实体词典,判断所述热点搜索词中是否包括实体;将包括实体的热点搜索词确定为候选兴趣点;
获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点。
进一步的,所述获取所述候选兴趣点在新闻数据样本中的命中率,根据所述命中率确定所述候选兴趣点中的热点兴趣点,包括:
获取新闻数据样本;
根据所述候选兴趣点对所述新闻数据样本中的多条新闻数据进行标注,获取包括所述候选兴趣点的新闻数据条数;
根据包括所述候选兴趣点的新闻数据条数以及所述新闻数据样本的总条数,计算所述候选兴趣点的命中率;
将对应的命中率大于预设概率阈值的候选兴趣点,确定为热点兴趣点。
进一步的,所述获取满足预设条件的多条新闻数据,包括:
获取新闻数据库;
将所述新闻数据库中的新闻数据,输入预设的低质模型,获取所述新闻数据的分类;
获取对应的分类满足预设条件的多条新闻数据。
进一步的,所述根据所述热点兴趣点对所述新闻数据进行标注,确定所述新闻数据中所包括的热点兴趣点以及所述热点兴趣点的评估分数,包括:
针对各条新闻数据,对所述新闻数据进行标注,获取所述新闻数据中所包括的热点兴趣点;
获取所述热点兴趣点在所述新闻数据中的出现次数;
根据所述热点兴趣点在所述新闻数据中的出现次数,计算所述热点兴趣点的评估分数。
进一步的,所述根据所述至少一条新闻数据,生成与所述热点兴趣点对应的热点新闻聚合文章,包括:
对所述至少一条新闻数据进行摘要生成,获取所述至少一条新闻数据对应的摘要;
根据所述至少一条新闻数据对应的摘要以及文章模板,生成与所述热点兴趣点对应的热点新闻聚合文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711145235.X/2.html,转载请声明来源钻瓜专利网。