[发明专利]信息处理方法、装置、设备及介质在审
| 申请号: | 201711493159.1 | 申请日: | 2017-12-30 |
| 公开(公告)号: | CN110020058A | 公开(公告)日: | 2019-07-16 |
| 发明(设计)人: | 王捷;马红艳 | 申请(专利权)人: | 中国移动通信集团贵州有限公司;中国移动通信集团公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
| 地址: | 550001 贵州省贵*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 哈希 去重 统一资源定位符 信息处理装置 哈希函数 哈希算法 映射数组 | ||
1.一种信息处理方法,其特征在于,所述方法包括:
获取初步话单,该初步话单包括多个统一资源定位符URL,以及
采用哈希算法对该多个URL进行去重处理,包括:
判断每个所述URL采用多个哈希函数在映射数组中对应的多个哈希值是否相同,以及
如果该多个哈希值相同,则进行所述URL的去重处理。
2.根据权利要求1所述的方法,其特征在于,所述判断每个所述URL采用多个哈希函数在映射数组中的多个映射值是否相同包括:
获取每个所述URL的URL哈希码;
利用k个所述哈希函数分别对该URL哈希码进行哈希运算,获取所述映射数组中的k个对应的哈希值,以及
判断该k个所述哈希值是否均相同。
3.根据权利要求1所述的方法,其特征在于,在进行所述去重处理之前,构建所述哈希算法,所述哈希算法用于将多个URL利用多个不同的所述哈希函数映射到m位的映射数组。
4.根据权利要求1所述的方法,其特征在于,进一步包括:
获取去重后的所述URL对应的预定业务内容。
5.根据权利要求4所述的方法,其特征在于,所述获取去重后的所述URL对应的预定业务内容之后,进一步包括:
利用爬虫爬取去重后的所述URL对应的第一业务内容;
进一步模拟访问去重后的所述URL,并获取对应去重后的所述URL的第二业务内容;
对比该第一业务内容以及第二业务内容,以及
当不一致时,用所述第二业务内容更新所述第一业务内容以获得所述预定业务内容。
6.根据权利要求4所述的方法,其特征在于,所述获取去重后的所述URL对应的预定业务内容之后,进一步包括:
基于所述预定业务内容,生成目标话单,具体包括:
对去重后的每个所述URL对应的预定网页内容进行分词,以及
基于所述分词,生成一个或多个类别信息,以及
匹配所述分词内容、一个或多个类别信息以及所述URL以生成所述目标话单。
7.根据权利要求6所述的方法,其特征在于,所述对去重后的每个所述URL对应的预定网页内容进行分词,包括:
对去重后的每个所述URL对应的预定网页内容,利用字符串匹配、基于语义理解以及基于统计的分词方法相结合的方式进行分词。
8.根据权利要求6所述的方法,其特征在于,所述匹配所述分词内容、一个或多个类别信息以及所述URL以生成所述目标话单之后,进一步包括:输出所述目标话单。
9.一种信息处理装置,其特征在于,所述装置包括:
至少一个处理电路,被配置为:
获取初步话单,该初步话单包括多个统一资源定位符URL,以及
采用哈希算法对该多个URL进行去重处理,包括:
判断每个所述URL采用多个哈希函数在映射数组中对应的多个哈希值是否相同,以及
如果该多个哈希值相同,则进行所述URL的去重处理。
10.一种信息处理设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团贵州有限公司;中国移动通信集团公司,未经中国移动通信集团贵州有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711493159.1/1.html,转载请声明来源钻瓜专利网。





