[发明专利]一种基于网络爬虫的文本信息爬取方法有效
申请号: | 201810705012.2 | 申请日: | 2018-07-01 |
公开(公告)号: | CN109002508B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 向湘杰 | 申请(专利权)人: | 上海众引文化传播股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/33;G06F40/211;G06F40/289 |
代理公司: | 北京成实知识产权代理有限公司 11724 | 代理人: | 陈永虔 |
地址: | 200000 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 爬虫 文本 信息 方法 | ||
1.一种基于网络爬虫的文本信息爬取方法,其特征在于,所述方法包括:
服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息;
所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;
所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;
所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络URL信息爬取,若相似度超出第二预设阈值,则输出第二文本;
所述服务器计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度;
所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解;
所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数;
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和;
所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数;
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合, out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
2.根据权利要求1所述的基于网络爬虫的文本信息爬取方法,其特征在于,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
3.根据权利要求2所述的基于网络爬虫的文本信息爬取方法,其特征在于,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
4.根据权利要求3所述的基于网络爬虫的文本信息爬取方法,其特征在于,使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众引文化传播股份有限公司,未经上海众引文化传播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810705012.2/1.html,转载请声明来源钻瓜专利网。