Topic:Processing Text...
本章主题:文本处理
1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing)
2、将单词(Words)转化为可建索引的词项(Terms)的形式。
3、最懒的方法是:什么都不处理,这样,所有词都可以且只能被精确匹配。这样,诸如大小写、词形变换等导致的单词,就无法被检索出来。
4、分词(Tokenization):将段落转化为Words的过程。
5、归一化(St[......]
Topic:Processing Text...
本章主题:文本处理
1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing)
2、将单词(Words)转化为可建索引的词项(Terms)的形式。
3、最懒的方法是:什么都不处理,这样,所有词都可以且只能被精确匹配。这样,诸如大小写、词形变换等导致的单词,就无法被检索出来。
4、分词(Tokenization):将段落转化为Words的过程。
5、归一化(St[......]
对应于容器(vector)和迭代器(iterator),C++从C语言继承了数组和指针。
4.1数组
数组时由类型名、标示符和维数组成的符合数据类型。
没有所有元素都是引用的数组。
【数组定义和初始化】
数组的维数必须是大于或者等于1的常量表达式,如果需要计算才能确定,必须使用new或者malloc。
可以在定义的时候将初始化值写在{}中,如下:
int array[5] = {0,1,2}
则,a[0]到a[2]初始化为0、1、2,而后面的a[3]和a[4]为0
对于没有显示初始化的数组[......]