[发明专利]一种数据处理方法及装置有效
申请号: | 201510441030.0 | 申请日: | 2015-07-24 |
公开(公告)号: | CN104965929B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 张琦;刘锋 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京信远达知识产权代理事务所(普通合伙) 11304 | 代理人: | 魏晓波 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,包括:
从数据源读取网页文件;
在所述网页文件中进行查找以生成特定数据内容,所述特定数据内容根据用户需求确定;
对所述特定数据内容进行导出;
其中,所述方法还包括:
读取对所述网页文件设置的分类标签;
将具有相同所述分类标签的网页文件中导出的所述特定数据内容划分为同一类别;
所述方法还包括:
在所述网页文件中查找开始标识以及结束标识,所述开始标识以及所述结束标识是由用户设置的;
在导出所述开始标识与所述结束标识之间的所述特定数据内容之后插入分隔符;
所述在所述网页文件中进行查找以生成特定数据内容,包括:
查找所述网页文件中包含的文本标签,将所述文本标签对应的数据内容确定为中间文字内容;
根据所述中间文字内容生成预设字数的摘要内容;
查找所述网页文件中包含的图片标签,在所述图片标签中选定一个或者指定一个作为特定图片标签;
将所述特定图片标签对应的数据内容确定为中间图片内容;
将所述摘要内容以及所述中间图片内容确定为特定数据内容。
2.根据权利要求1所述的方法,在从数据源读取网页文件之前,还包括:
接收包括数据源路径的设置信息,所述数据源包括单个数据源或者多个不同的数据源。
3.根据权利要求1所述的方法,其中,所述对所述特定数据内容进行导出,包括:
将所述特定数据内容直接导出到本地;
或者,
将所述特定数据内容导出到第三方数据平台。
4.根据权利要求1所述的方法,还包括:
根据排版设置文件对导出的所述特定数据内容进行排版。
5.一种数据处理装置,包括:
读取单元,用于从数据源读取网页文件;
生成单元,用于在所述网页文件中进行查找以生成特定数据内容,所述特定数据内容根据用户需求确定;
导出单元,用于对所述特定数据内容进行导出;
其中,所述数据处理装置还包括:
标签读取单元,用于读取对所述网页文件设置的分类标签;
分类单元,用于将具有相同所述分类标签的网页文件中导出的所述特定数据内容划分为同一类别;
查找单元,用于在所述网页文件中查找开始标识以及结束标识,所述开始标识以及所述结束标识是由用户设置的;
插入单元,用于在导出所述开始标识与所述结束标识之间的所述特定数据内容之后插入分隔符;
所述生成单元包括:
第一查找子单元,用于查找所述网页文件中包含的文本标签;
第三确定子单元,用于将所述文本标签对应的数据内容确定为中间文字内容;
第四确定子单元,用于根据所述中间文字内容生成预设字数的摘要内容;
第二查找子单元,用于查找所述网页文件中包含的图片标签;
选定/指定子单元,用于在所述图片标签中选定一个或者指定一个作为特定图片标签;
第五确定子单元,用于将所述特定图片标签对应的数据内容确定为中间图片内容;
第六确定子单元,用于将摘要内容以及所述中间图片内容确定为特定数据内容。
6.根据权利要求5所述的装置,还包括:
接收单元,用于接收包括数据源路径的设置信息,所述数据源包括单个数据源或者多个不同的数据源。
7.根据权利要求5所述的装置,所述导出单元具体用于:
将所述特定数据内容直接导出到本地;或者,将所述特定数据内容导出到第三方数据平台。
8.根据权利要求5所述的装置,还包括:
排版单元,用于根据排版设置文件对导出的所述特定数据内容进行排版。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510441030.0/1.html,转载请声明来源钻瓜专利网。