Tag Archives: 读书笔记

Java核心技术(第8版) - 读书笔记 - 第3章

1、Java采用UTF-16标准,一定程度上与Unicode兼容。Unicode有17个级别,1个标准和16个拓展。

2、Unicode标准中,第1级U+0000到U+FFFF,在Java中用2个字节表示(但U+D800到U+DBFF无定义)。

3、Unicode还定义了其余16个扩展级,从U+10000到U+10FFFF。在Java中用4个字节表示。它们的前两个字节就是U+D800~U+DBFF,即Java标准级别中没定义的部分,后两个字节就是U+DC00到U+DFFF。因此,这1[......]

继续阅读

Search Engines: Information Retrieval in Practice – 第5章

Ranking with Indexes

本章内容:索引结构

1、每个系统都需要对应的数据结构(data structures)。信息检索中最常用的数据结构是:倒排索引(inverted index)。

2、本章的另外一个主题是:查询处理(Query processing),即如何让查询使用索引的数据。

3、抽象检索模型:
(1)一篇文档被转化为对应的词项(index terms),形成不同的特征(features)
(2)主题特征(topical features)[......]

继续阅读

Search Engines: Information Retrieval in Practice – 第4章

Topic:Processing Text...

本章主题:文本处理

1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing)

2、将单词(Words)转化为可建索引的词项(Terms)的形式。

3、最懒的方法是:什么都不处理,这样,所有词都可以且只能被精确匹配。这样,诸如大小写、词形变换等导致的单词,就无法被检索出来。

4、分词(Tokenization):将段落转化为Words的过程。

5、归一化(St[......]

继续阅读

Search Engines: Information Retrieval in Practice – 第3章

本章介绍了关于搜索原信息获取的问题,数据源除了Web、Feed之外,还有邮件、文档等各种可能的内网资源。

1、web的采集系统称为web crawler。两个最大的挑战:
(1)Web规模巨大,消耗巨大带宽、存储、CPU资源
(2) 不可控情况,很多网页会阻止你采集(加访问权限),有的Form表单无法采集,会产生数百万的组合结果(这种情况下,最好放弃form表单的采集)。

2、web上的每一个资源通过URL(Uniform resource locator)表示。分为scheme[......]

继续阅读

Search Engines: Information Retrieval in Practice - 第2章

第2章:Architecture of a Search Engine (搜索引擎的整体结构)

1、搜索引擎的两个目标:Effectiveness(效果quality)和Efficienct(性能speed)。

2、搜索引擎的组成
(1) Indexing Process (建索引)
包括:
Text Acquistion (文档获取),典型的有:Crawling (爬虫), Metadata (元信息抽取)。
Text Transformation (文档转换),主要是:[......]

继续阅读