最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。
1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。
2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。
3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。
看到了再继续更新。[......]
最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。
1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。
2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。
3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。
看到了再继续更新。[......]
转载自:http://blog.csdn.net/sding/archive/2011/02/28/6214207.aspx
1.最基本的抓站
import urllib2
content = urllib2.urlopen('http://XXXX').read()
-
2.使用代理服务器
这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。
import urllib2
proxy_support = urllib2.Pro[......]