Search Engines: Information Retrieval in Practice – 第7章

这章想看很久了，信息检索最核心的东西：检索模型(Retrieval Models)！

1、信息检索发展45年来的核心问题：让人们找到所需要的信息。

2、理想很丰满，但现实很骨感，我们现在只能做好一件事情：对文档进行排序，让最相关的排在前面----这就是信息检索模型。

3、检索模型的成功应用，让1990s间，检索效果提升了100%以上。

4、说到“文档相关”，有两组需要区分的概念：
(1)话题相关 or 用户相关。用户相关显然是最理想的情况，但一般很难实现，多数情况，还是话题(文本)层面的相关。
(2)二值相关 or 多级相关。二值：0 or 1，相关或不相关。分级：3 2 1 0，即相关中，也分为不同等级。

5、布尔检索模型(Boolean Retrieval)：
优势：结果可预测，结果易于理解，效率高。
劣势：构造查询太复杂，结果无序。

6、在法律等专业领域，还保留着布尔模型，但一般是由专业人员，称为“search intermediaries”的人，构造Query，进行检索。

7、向量空间模型(Vector Space Model)，研究主要集中于1960s和1970s。

8、VSM将文档D、查询Q都表示成t-维度的向量：
D = (di1, di2, ..., dit)，di1为文档i中第1个词的权重。

9、VSM计算向量D和Q的余弦夹角。夹角越小的，说明D和Q越相似，即D越相关。

10、上面提到的向量中某一个维度的词权重，di1怎么计算呢？一般采用tf-idf的方法计算。

11、idf反映了词在文档集C中的重要程度，词在文档集合中出现的越多，说明它越不具有区分度。

12、Roccbio算法基于“优化查询”的思想，可以与VSM很好的结合在一起。它根据相关、不相关的词权重，调整查询中不同词的权重向量。

假设查询向量为Q，现在有了一些相关反馈结果，我们想根据这些反馈，得到一个优化的查询向量Q'，则：

四号程序员