http://gitimmersion.com/index.html
http://www.ralfebert.de/blog/tools/git_screencast/[......]
1. Git和GitHub简单文字说明
Git是一个开源的分布式版本控制系统,用以有效、高速的处理各种规模的项目版本管理, 它是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件,后来得到广泛的使用。
GitHub可以托管各种git库,并提供一个web界面,但与其它像 SourceForge或GoogleCode这样的服务不同,GitHub的独特卖点在于从另外一个项目进行分支的[......]
最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。
1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。
2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。
3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。
看到了再继续更新。[......]
1、关于除法/和//。
在Python 2中,/还是整除,即只返回整数部分。
而Python 3中,/变为浮点除,不在约为整数。
在Python 2中,想要获取浮点结果,可以将除数或者被除数强转为float:
float(1)/100
0.01
2、一些有用的函数
abs(x):返回x的绝对值
pow(x,y):x ^ y,等价于x ** y
round(x):返回离x最近的10^n值,n可正或者负
3、关于对tuple、list、字符等的乘法:重复字符
如'a'[......]
编译Sphinx 1.10之后,看看它到底是怎么用的。
总的来说,检索系统就是建索引和搜索两个过程。
由于我们不准备使用MySQL引擎的部分,数据源采用XML接口,因此和官方文档中出入较大。
1、配置Sphinx
cd /usr/local/sphinx/etc
sudo cp sphinx.conf.dist sphinx.conf
#编辑配置文件
sudo vim sphinx.conf
#xml数据源配置
source src1
{
type[......]