[发明专利]对文本内容进行筛选的方法及装置有效
| 申请号: | 201410053002.7 | 申请日: | 2014-02-17 |
| 公开(公告)号: | CN104850537B | 公开(公告)日: | 2017-12-15 |
| 发明(设计)人: | 张红林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 周华霞,王丽琴 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 内容 进行 筛选 方法 装置 | ||
技术领域
本发明涉及文本信息处理技术,尤其涉及对文本内容进行筛选的方法及装置。
背景技术
通过网络查询目标文本内容时,常存在多个候选文本内容,需要从中筛选出优质的文本内容。所述文本内容例如为小说文本、关于某指定主体的在线文本等;下面以在线阅读小说文本为例进行具体说明。
网络文学最早在互联网上兴起,是一种流行的pc端文字形式。随着网络文学的快速发展,越来越多的网络小说网站涌现。同一本小说往往在很多网站出现,但是各个网站对小说文本的编排质量、杂质程度都不尽相同。实际应用中,常需要对小说文本进行筛选,从中找出优质的小说文本。目前的文本内容筛选方式主要包括以下两种:
方式一、
大部分阅读类产品不对各小说网站的小说内容进行聚合,读者需要分别去各个第三方小说网站上查找网络小说并阅读。
该方式存在以下缺陷:由于第三方小说网站数量庞大,网速、更新速度、内容质量等参差不齐,读者需要耗费大量时间进行人为搜索和甄别,以筛选出优质的网络小说,阅读效率低下。而且往往一本网络小说在甲网站上可以顺利阅读,但另一本网络小说只能去乙网站阅读,造成读者需要记住大量小说网站。
方式二、
部分阅读类产品对各小说网站的小说内容做了简单的内容聚合,为部分目标小说内容提供了相关的小说网站,读者可点击链接,便可访问相应小说网站;这样,读者不需要分开去各个网站上查找小说,只需要从单一入口就可以看到一本书在各个网站上的情况。
该方式存在以下缺陷:这种方案减少了读者的查找时间,但查找后仍需要人为进行筛选,这仍需花费较多的时间;并且,对于一本小说的众多章节还是可能出现某些章节在不同的网站上质量不一致的情况,在阅读一本书的时候可能要进行网站之间的频繁切换,破坏阅读体验的连贯性。
综上,对于存在多个候选文本内容的情形,需要人为参与进行校验,以筛选出优质的文本内容,操作不便,且效率低。
发明内容
本发明提供了一种对文本内容进行筛选的方法,该方法能够实现自动筛选出优质的文本内容。
本发明提供了一种对文本内容进行筛选的装置,该装置能够实现自动筛选出优质的文本内容。
一种对文本内容进行筛选的方法,该方法包括:
获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;
获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;
计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
一种对文本内容进行筛选的装置,该装置包括候选文本处理单元、标准文本处理单元和相似运算单元;
所述候选文本处理单元,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量,发送给所述相似运算单元;
所述标准文本处理单元,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量,发送给所述相似运算单元;
所述相似运算单元,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
从上述方案可以看出,本发明中,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。采用本发明方案,将自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,以确定出优质的文本内容;从而,实现自动筛选出优质的文本内容。这样,无需读者参与进行人为校验,简化了操作,节省了筛选时间,提高了筛选效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410053002.7/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





