Category Archives: 计算机技术

[转]git && github入门教程

转载自:github & git 入门教程

1. Git和GitHub简单文字说明

Git是一个开源的分布式版本控制系统,用以有效、高速的处理各种规模的项目版本管理, 它是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件,后来得到广泛的使用。

GitHub可以托管各种git库,并提供一个web界面,但与其它像 SourceForge或GoogleCode这样的服务不同,GitHub的独特卖点在于从另外一个项目进行分支的[......]

继续阅读

设计网页爬虫需注意的问题

最近有空的时候在读Larbin的源代码,虽然是03年的了,但是很多细节都考虑的很周到,记录一下细节问题吧。

1、针对同一IP/HOST,不可访问过频繁,最好按其进行队列。

2、注意处理、过滤url后缀,以及Content-Type,我觉得Content-Type才是王道吧。

3、注意去重的问题,包括URL去重和网页内容去重。特别是有的网站是多个域名,很可能爬到实际内容重复,只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。

看到了再继续更新。[......]

继续阅读

Python Essential Reference 4th – 第4章 – 读书笔记

1、关于除法/和//。
在Python 2中,/还是整除,即只返回整数部分。
而Python 3中,/变为浮点除,不在约为整数。

在Python 2中,想要获取浮点结果,可以将除数或者被除数强转为float:
float(1)/100
0.01
2、一些有用的函数
abs(x):返回x的绝对值
pow(x,y):x ^ y,等价于x ** y
round(x):返回离x最近的10^n值,n可正或者负

3、关于对tuple、list、字符等的乘法:重复字符
如'a'[......]

继续阅读

Sphinx 1.10的测试

编译Sphinx 1.10之后,看看它到底是怎么用的。
总的来说,检索系统就是建索引和搜索两个过程。
由于我们不准备使用MySQL引擎的部分,数据源采用XML接口,因此和官方文档中出入较大。

1、配置Sphinx
cd /usr/local/sphinx/etc
sudo cp sphinx.conf.dist sphinx.conf

#编辑配置文件
sudo vim sphinx.conf

#xml数据源配置
source src1
{
type[......]

继续阅读