Category Archives: 计算机技术

设计网页爬虫需注意的问题

最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。

1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。

2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。

3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。

看到了再继续更新。[......]

继续阅读

Python Essential Reference 4th – 第4章 – 读书笔记

1、关于除法/和//。
在Python 2中,/还是整除,即只返回整数部分。
而Python 3中,/变为浮点除,不在约为整数。

在Python 2中,想要获取浮点结果,可以将除数或者被除数强转为float:
float(1)/100
0.01
2、一些有用的函数
abs(x):返回x的绝对值
pow(x,y):x ^ y,等价于x ** y
round(x):返回离x最近的10^n值,n可正或者负

3、关于对tuple、list、字符等的乘法:重复字符
如'a'[......]

继续阅读

Sphinx 1.10的测试

编译Sphinx 1.10之后,看看它到底是怎么用的。
总的来说,检索系统就是建索引和搜索两个过程。
由于我们不准备使用MySQL引擎的部分,数据源采用XML接口,因此和官方文档中出入较大。

1、配置Sphinx
cd /usr/local/sphinx/etc
sudo cp sphinx.conf.dist sphinx.conf

#编辑配置文件
sudo vim sphinx.conf

#xml数据源配置
source src1
{
type[......]

继续阅读

分享3个Putty配色方案

虽然服务器都是Linux的,平时也基本用Linux,但是难免还是要在Windows下连服务器。我用的是putty,在winxp下的配色非常别扭,普遍偏暗。(没错,和系统相关,win7下一切良好),下面分享两个配色方案。

感谢这篇Blog:http://blog.sina.com.cn/s/blog_4d910ea50100omv1.html

方案1:比较柔和

方案2:略刺眼

下面说说如何使用,新建一个记事本文件,命名为putty.reg,直接拷贝下面代码。[......]

继续阅读

Windows下实现非全局、进程粒度的代理

在Windows下,浏览器,或者系统全局代理比较简单。但是如果某个程序没有提供代理选项,我们如何让它走代理呢?可以使用SockCap这个软件,过程如下:

1、设置代理服务器,如下图所示:

2、设置要代理的程序

 

3、运行

完成。[......]

继续阅读