ITKeyword - 技术文章推荐分享

首页 > Hadoop中的几种文件格式

Hadoop中的几种文件格式

标签: hadoop, 数据存储,

相关推荐:Hadoop IO基于文件的数据结构详解【列式和行式数据结构的存储策略】

Charles所有关于hadoop的文章参考自hadoop权威指南第四版预览版 大家可以去safari免费阅读其英文预览版。本人也上传了PDF版本在我的资源中可以免费下载,不需要C币,点击这里下载。对于某些应用,需要一个特殊的数据结构来存储数据。针对运行基于MapRedu

Hadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。面向列:整个文件被切割为若干列数据,每一列数据一起存储。Parquet , RCFile,ORCFile。面向列的格式使得读取数据时,可以跳过不需要的列,适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间,因为需要缓存行在内存中(为了获取多行中的某一列)。同时不适合流式写入,因为一旦写入失败,当前文件无法恢复,而面向行的数据在写入失败时可以重新同步到最后一个同步点,所以Flume采用的是面向行的存储格式。下面介绍几种相关的文件格式,它们在Hadoop体系上被广泛使用:1. SequenceFileSequenceFile的文件结构如下:根据是否压缩,以及采用记录压缩还是块压缩,存储格式有所不同:不压缩: 按照记录长度、Key长度、Value程度、Key值、Value值依次存储。长度是指字节数。采用指定的Serialization进行序列化。Record压缩: 只有value被压缩,压缩的codec保存在Header中。Block压缩: 多条记录被压缩在一起,可以利用记录之间的相似性,更节省空间。Block前后都加入了同步标识。Block的最小值由io.seqfile.compress.blocksize属性设置。 2. MapFileMapFile是SequenceFile的变种,在SequenceFile中加入索引并排序后就是MapFile。索引作为一个单独的文件存储,一般每个128个记录存储一个索引。索引可以被载入内存,用于快速查找。存放数据的文件根据Key定义的顺序排列。 MapFile的记录必须按照顺序写入,否则抛出IOException。MapFile的衍生类型:SetFile:特殊的MapFile,用于存储一序列Writable类型的Key。Key按照顺序写入。ArrayFile:Key为整数,代表在数组中的位置,value为Writable类型。BloomMapFile:针对MapFile的get()方法,使用动态Bloom过滤器进行优化。过滤器保存在内存中,只有带key值存在的时候,才会调用常规的get()方法,真正进行读操作。Hadoop体系下面向列的文件包括RCFile,ORCFile,Parquet的。Avro的面向列版本为Trevni。3. RCFileHive的Record Columnar Fi

相关推荐:在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight。通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以在Blob存储数据的直接操作。在本教程中,

le,这种类型的文件先将数据按行划分成Row Group,在Row Group内部,再将数据按列划分存储。其结构如下:相比较于单纯地面向行和面向列:更详细的介绍参考RCFile论文。4. ORCFileRCFile(Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值,以及列中每一行的位置。在Hive中,如下命令用于使用ORCFile:CREATE TABLE ... STORED AAS ORCALTER TABLE ... SET FILEFORMAT ORCSET hive.default.fileformat=ORC5. Parquet一种通用的面向列的存储格式,基于Google的Dremel。特别擅长处理深度嵌套的数据。对于嵌套结构,Parquet将其转换为平面的列存储,嵌套结构通过Repeat Level和Definition Level来表示(R和D),在读取数据重构整条记录的时候,使用元数据重构记录的结构。下面是R和D的一个例子:AddressBook {

contacts: {

phoneNumber: "555 987 6543"

}

contacts: {

}}AddressBook {}

$(function () {

$('pre.prettyprint code').each(function () {

var lines = $(this).text().split('\n').length;

var $numbering = $('<ul/>').addClass('pre-numbering').hide();

$(this).addClass('has-numbering').parent().append($numbering);

for (i = 1; i <= lines; i++) {

$numbering.append($('<li/>').text(i));

};

$numbering.fadeIn(1700);

});

});

相关推荐:hadoop学习之-使用ODCH工具实现oralce外部表访问HDFS数据文件

实验说明:本实验目的是通过使用Oracle的HDFS直接连接器从oracle数据库的外部表中直接访问HDFS的数据文件。支持的数据文件格式取决于ORACLE_LOADER的驱动程序。一、 安装准备1.软件下载:Oracle Big Data Connectors:ODCHhttp://ww

Hadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分数据,亦...

------分隔线----------------------------