[发明专利]一种基于网络爬虫的文本信息爬取方法有效
申请号: | 201810705012.2 | 申请日: | 2018-07-01 |
公开(公告)号: | CN109002508B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 向湘杰 | 申请(专利权)人: | 上海众引文化传播股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/33;G06F40/211;G06F40/289 |
代理公司: | 北京成实知识产权代理有限公司 11724 | 代理人: | 陈永虔 |
地址: | 200000 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 爬虫 文本 信息 方法 | ||
本发明提供了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的相似度,若相似度超出预设阈值,则输出第二文本。本发明基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。
技术领域
本发明数据处理领域,尤其涉及一种基于网络爬虫的文本信息爬取方法。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的数据。
现有技术中,用户可能根据一个文本的内容从网络的海量数据中进行比较的需求,例如出版社收到一份投稿之后,需要比对一下该稿件是否为抄袭的稿件,比如从大量信息中获取所需要信息。
现有技术中的比较方法一般是由人工将稿件阅读完后总结出该稿件的核心思想,然后归纳出关键词,使用这些关键词在互联网上进行爬取,但是,如果稿件中的信息量较大,阅读需要花费大量的时间,影响了工作效率。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于网络爬虫的文本信息爬取方法,克服现有技术中从网络的海量数据中获取信息效率低的缺陷。
本发明公开了一种基于网络爬虫的文本信息爬取方法,其中,所述方法包括:
服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息;
所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;
所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;
所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络URL信息爬取,若相似度超出第二预设阈值,则输出第二文本。
可选的,所述服务器计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度。
可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众引文化传播股份有限公司,未经上海众引文化传播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810705012.2/2.html,转载请声明来源钻瓜专利网。