[发明专利]一种新闻信息处理方法、新闻推荐方法和相关装置有效
申请号: | 201510509331.2 | 申请日: | 2015-08-18 |
公开(公告)号: | CN105022840B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 侯立莎 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100031 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类簇 特征向量 文字内容 相关装置 信息处理 词向量 数据库 存储 分词处理 累加求和 文本聚类 中心向量 相似度 聚类 权重 分组 | ||
本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置。方法包括:获取新闻的文字内容;对新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为权重,将新闻的所有词向量累加求和,计算得到新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇;将得到的所有类簇以及每个类簇的中心向量存储在数据库中。本发明实现了将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当需要推荐新闻时,本发明可以将该新闻对应的类簇中的其他新闻推荐给用户。
技术领域
本发明涉及新闻信息处理技术领域,更具体地说,涉及一种新闻信息处理方法、新闻推荐方法和相关装置。
背景技术
新闻推荐是指用户在浏览某个新闻时或浏览完新闻后,系统自动给用户推荐出与用户当前浏览的新闻的内容相关或相似的其他新闻。
目前现有技术中的新闻推荐方法主要包括以下两种:
一种为基于当前新闻内容中的关键词来推荐其他新闻,另一种为根据当前新闻内容中字词出现的频率来生成空间向量模型,依据空间向量模型来计算新闻间的相似度,进而推荐与当前新闻内容相似的其他新闻。
然而本发明的发明人对上述现有新闻推荐方法进行研究后发现,对于第一种基于当前新闻内容中的关键词来推荐其他新闻的方法,由于有些关键词具有多种含义,例如“苹果”既表示手机,也表示一种水果,那么当用户浏览完与“苹果”手机相关的新闻后,系统可能会继续为用户推荐与“苹果”水果有关的其他新闻,此时推荐的新闻内容大多情况下不是用户需要的内容,新闻推荐准确性降低。而对于现有技术中第二种新闻推荐方法,当新闻数量较大时,例如有10000篇新闻时,预处理掉噪声词汇之后,大概还会生成几十万个字词,对于这几十万个字词来生成空间向量模型,该生成的空间向量模型的维度即为几十万,那么在基于该几十万维度的空间向量模型下计算新闻相似度时,计算相当复杂、耗时高。
基于上述内容,现有技术的方案均无法准确和高效的为用户实现新闻推荐
发明内容
有鉴于此,本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置,以保证高效、准确地为用户实现新闻推荐。技术方案如下:
基于本发明的一方面,本发明提供一种新闻信息处理方法,包括:
获取新闻的文字内容;
对所述新闻的文字内容进行分词处理,获得多个字词;
计算每个字词的词向量;
计算每个字词的词频-逆文档频tfidf值;
分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
当需要为用户推荐新闻时,检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
优选地,所述利用分词器对所述新闻的文字内容进行分词处理后,所述获取多个字词前,所述方法还包括:
将分词处理后得到的所有字词进行预处理,删除垃圾字词。
优选地,所述计算每个字词的词向量包括:
利用word2vec工具计算每个字词的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510509331.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于特征子空间的新闻分类方法及系统
- 下一篇:信息拦截方法及装置