[发明专利]数据处理方法和装置以及数据查询方法和装置有效
| 申请号: | 201511001307.4 | 申请日: | 2015-12-28 |
| 公开(公告)号: | CN106919626B | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 王清华 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 以及 数据 查询 | ||
本申请公开了一种数据处理方法和装置以及数据查询方法和装置。其中,该数据处理方法包括:从用于存储文本数据的服务器中确定出多个目标文本,其中,多个目标文本所记录的文本内容相同;从多个目标文本中确定出预设文本,其中,预设文本为多个目标文本中的任意一个文本;对预设文本添加预设标识,以使得在服务器中利用所述预设标识查询文本数据。本申请解决了现有技术在查询文本的查询结果中包含大量的内容重复的文本的技术问题。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据处理方法和装置以及数据查询方法和装置。
背景技术
搜索服务器在收录文本的过程中,往往会从不同的网站搜集相应的文本,不同的网站上会发布相同的内容,这使得搜索服务器收录的文本存在大量重复。搜索服务器的种类可以有很多,例如ElasticSearch,它是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎。
对于这些搜索服务器,由于其收录了大量重复的文本,使得在查询文本的查询结果中包含大量的内容重复的文本,此时,分析人员需要再对查询结果中重复的文本进行去重处理,降低了数据分析的效率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据处理方法和装置以及数据查询方法和装置,以至少解决现有技术在查询文本的查询结果中包含大量的内容重复的文本的技术问题。
根据本申请实施例的一个方面,提供了一种数据处理方法,包括:从用于存储文本数据的服务器中确定出多个目标文本,其中,所述多个目标文本所记录的文本内容相同;从所述多个目标文本中确定出预设文本,其中,所述预设文本为所述多个目标文本中的任意一个文本;对所述预设文本添加预设标识,以使得在服务器中利用所述预设标识查询文本数据。
进一步地,所述多个目标文本为m个,m为大于或者等于2的自然数,其中,从所述多个目标文本中确定出预设文本包括:将所述多个目标文本按照所述多个目标文本中每个目标文本对应的第二字段记录的时间的先后顺序进行排序,得到排序后的第1至第m个目标文本,将所述第1个目标文本作为所述预设文本,其中,所述第二字段用于记录对应的目标文本的发布时间;对所述预设文本添加预设标识包括:将第1个目标文本对应的第一字段的值设置为第一预设时间,将所述第一预设时间作为所述预设标识;在对所述预设文本添加预设标识之后,所述方法还包括:将第i+1个目标文本对应的第一字段的值设置为第i个目标文本对应的第二字段记录的时间,其中,i依次取1至m-1。
进一步地,在将第i+1个目标文本对应的第一字段的值设置为第i个目标文本对应的第二字段记录的时间之前,所述方法还包括:判断所述第i个目标文本对应的第一字段记录的时间是否小于所述第i个目标文本对应的第二字段记录的时间;将第i+1个目标文本对应的第一字段的值设置为第i个目标文本对应的第二字段记录的时间包括:在判断出所述第i个目标文本对应的第一字段记录的时间小于所述第i个目标文本对应的第二字段记录的时间的情况下,将所述第i+1个目标文本对应的第一字段的值设置为所述第i个目标文本对应的第二字段记录的时间;其中,在判断出所述第i个目标文本对应的第一字段记录的时间大于或者等于所述第i个目标文本对应的第二字段记录的时间的情况下,将所述第i+1个目标文本对应的第一字段的值设置为所述第i个目标文本对应的第一字段记录的时间与第二预设时间之和,其中,所述第二预设时间小于所述第一字段和所述第二字段记录的最小时间单位。
进一步地,在从用于存储文本数据的服务器中确定出多个目标文本之前,所述方法还包括:对所述服务器中文本内容相同的一组文本中每个文本添加相同的标签,其中,不同文本内容的文本对应的标签不同;从用于存储文本数据的服务器中确定出多个目标文本包括:利用所述标签从所述服务器中确定出所述多个目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511001307.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种互联网用户属性识别方法和装置
- 下一篇:热词的处理方法和装置





