Posted on:
Last modified:
总的来说,爬虫可能需要处理两种任务,一种是日常的大规模爬取,可能需要对某些站点或者全网 进行周期性爬取;另一种可能是临时对某个站点的某类网页提取一些数据,只需要爬取特定的一类 网页。两者没有特别明晰的界限,而且后者也可以直接从第一种已经爬过的网页中提取数据就可以了。 另外,对于后者来说,抓过的页面不需要再抓,而对于搜索引擎来说,还需要分辨出哪些链接需要 反复抓。
评估指标:覆盖度,时效性,死链率
我们知道网页总是会更新的。在大规模的网络爬取中,一个很重要的问题是重抓策略,也就是在什么 时候去重新访问同一个网页已获得更新。要获得这个问题的解,需要满足如下两个条件:
这两个条件几乎是对立的,所以我们必须找到一种算法,并获得一个尽可能优的折衷。
© 2016-2022 Yifei Kong. Powered by ynotes
All contents are under the CC-BY-NC-SA license, if not otherwise specified.
Opinions expressed here are solely my own and do not express the views or opinions of my employer.
友情链接: MySQL 教程站