Xapian压缩数据库

压缩数据库可以减小数据库体积,提高检索性能。
xapian-compact - Compact a database, or merge and compact several

Usage: xapian-compact [OPTIONS] SOURCE_DATABASE... DESTINATION_DATABASE

Options:
-b, --blocksize Set the blocksize in bytes (e.g. 4096) or K (e.g. 4K[......]

继续阅读

Search Engines: Information Retrieval in Practice – 第3章

本章介绍了关于搜索原信息获取的问题,数据源除了Web、Feed之外,还有邮件、文档等各种可能的内网资源。

1、web的采集系统称为web crawler。两个最大的挑战:
(1)Web规模巨大,消耗巨大带宽、存储、CPU资源
(2) 不可控情况,很多网页会阻止你采集(加访问权限),有的Form表单无法采集,会产生数百万的组合结果(这种情况下,最好放弃form表单的采集)。

2、web上的每一个资源通过URL(Uniform resource locator)表示。分为scheme[......]

继续阅读

通过PHP发送邮件(带附件、HTML等)

用PHP发邮件,可以走sendmail,但是MIME方面,如果用内置的,非常麻烦。

我使用了SwiftMail

有兴趣的可以看看他们的文档,支持SMTP、Sendmail,对MIME的支持也很简单很强大,支持附件、html等。

一个例子:
<?php
require_once './lib/swift_required.php';

//E-Mail
$mail_title = "I'm Subject";
$mail_content = "I'm Conte[......]

继续阅读

关于webpy模板自动HTML转义的问题。

摘抄自:http://webpy.org/tutorial3.zh-cn

要注意 web.py 将会转义任何任何用到的变量,所以当你将 name 的值设为是一段 HTML 时,它会被转义显示成纯文本。如果要关闭该选项,可以写成 $:name 来代替 $name

如果我们想部分转移,怎么办?

webpy显然提供了转移函数,我们在应用层直接调用就可以了。
from web.net import htmlquote

htmlquote(raw_text)[......]

继续阅读