1、为了HDFS中的保证数据完整性,Hadoop使用Checksum的方法,每io.bytes.per.checksum个字节计算一个CRC-32的CheckSum。默认是512字节,生成4字节的checksum,所以在空间开销上
2、Hadoop/HDFS支持压缩,当数据规模很大的时候,不仅可以节省空间,还可以减少网络I/O等的消耗。
3、在支持的压缩算法中,压缩比:bzip2 > gzip > lzo,速度:lzo > gzip > bzip2。
解[......]
1、为了HDFS中的保证数据完整性,Hadoop使用Checksum的方法,每io.bytes.per.checksum个字节计算一个CRC-32的CheckSum。默认是512字节,生成4字节的checksum,所以在空间开销上
2、Hadoop/HDFS支持压缩,当数据规模很大的时候,不仅可以节省空间,还可以减少网络I/O等的消耗。
3、在支持的压缩算法中,压缩比:bzip2 > gzip > lzo,速度:lzo > gzip > bzip2。
解[......]