最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。
1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。
2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。
3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。
看到了再继续更新。[......]
最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。
1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。
2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。
3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。
看到了再继续更新。[......]
1、关于除法/和//。
在Python 2中,/还是整除,即只返回整数部分。
而Python 3中,/变为浮点除,不在约为整数。
在Python 2中,想要获取浮点结果,可以将除数或者被除数强转为float:
float(1)/100
0.01
2、一些有用的函数
abs(x):返回x的绝对值
pow(x,y):x ^ y,等价于x ** y
round(x):返回离x最近的10^n值,n可正或者负
3、关于对tuple、list、字符等的乘法:重复字符
如'a'[......]
编译Sphinx 1.10之后,看看它到底是怎么用的。
总的来说,检索系统就是建索引和搜索两个过程。
由于我们不准备使用MySQL引擎的部分,数据源采用XML接口,因此和官方文档中出入较大。
1、配置Sphinx
cd /usr/local/sphinx/etc
sudo cp sphinx.conf.dist sphinx.conf
#编辑配置文件
sudo vim sphinx.conf
#xml数据源配置
source src1
{
type[......]
虽然服务器都是Linux的,平时也基本用Linux,但是难免还是要在Windows下连服务器。我用的是putty,在winxp下的配色非常别扭,普遍偏暗。(没错,和系统相关,win7下一切良好),下面分享两个配色方案。
感谢这篇Blog:http://blog.sina.com.cn/s/blog_4d910ea50100omv1.html
方案1:比较柔和
方案2:略刺眼
下面说说如何使用,新建一个记事本文件,命名为putty.reg,直接拷贝下面代码。[......]
在Windows下,浏览器,或者系统全局代理比较简单。但是如果某个程序没有提供代理选项,我们如何让它走代理呢?可以使用SockCap这个软件,过程如下:
1、设置代理服务器,如下图所示:
2、设置要代理的程序
3、运行
完成。[......]