All About Programming: Apache HBase 快照介绍之二：深入探索

在关于Apache HBase快照系列的第一篇中，我们学到了如何使用新的快照特性，以及实现背后的一些理论支持。现在是时候再深入探索一些技术细节了。

表是什么？

HBase表包含一系列元数据信息和键值对集合。

表信息：一份描述"设置"的清单文件，如列族，压缩类型与编码，布隆（bloom）过滤器类型等。

域：表"分区"称之为域。每个域都通过定义起始键和终止键来负责管理一份连续的键值集合。

WALs/MemStore：在数据写入磁盘之前，put会先写到写前日志(Write Ahead Log �C WAL)然后保存在内存中，直到内存压力触发写入磁盘。WAL为恢复那些因为异常没有写入磁盘的put操作提供了一个简单的方式。

HFiles:某些时候所有数据都写入了磁盘。HFile就是HBase存储键值对的文件格式，HFile是不变的。但是当合并或域删除时可以被删除掉。（注意：想了解更多HBase写入过程的内容可以看下HBase写入过程博文，对于HFiles更多的细节可以看下HBase I/O �C HFiles 博文）

快照就是一系列元数据信息集合，能够允许管理员将表恢复至生成快照时的状态。快照不是表的复制。最简单的方式就是把它想象成为了追踪元数据（表信息和域）和数据(HFiles, 内存存储, WALs)一系列操作的集合。在生成快照操作中没有执行任何复制数据的动作。

离线快照：讨论快照的最简单的场景就是当一张表被关闭了。关闭一张表意味着所有的数据都写入了磁盘，而且不允许任何读写操作。在这种情况下，生成快照仅仅就是获取表元数据并且与磁盘中的HFiles保持关联。主节点执行操作需要的时间，主要取决于HDFS的namenode提供文件列表需要的时间。

在线快照：在大部分情况下，表都是开启的，而且每个域服务器都不断的处理put和get请求。在这种情况下，主节点接收到快照请求并要求每个域服务器都为其负责的域生成一份快照。

主节点和域服务器之间的通信是通过Apache ZooKeeper的，使用了类似两阶段提交事务。主节点建立一个"准备快照"的znode。每个域服务器会处理请求，并且为指定的表在其负责范围内的域准备快照。一旦准备完成，就会在准备请求的znode下建立一个子节点，意味着"准备完成"。

一旦所有域服务器都回报了他们的状态，主节点就建立另一个znode表示"提交快照"；每个域服务器会完成快照并在加入节点前报告状态。一旦所有域服务器都回报完成，主节点会完成快照并标记操作完成。若某个域服务器报告失败，主节点会新建znode来广播放弃信息。

当域服务器继续处理新请求是，不同的用例情况下可能需要不同的一致性模型。例如有人可能对不包含内存中最新数据的不完全的快照感兴趣，而有的人希望锁定写操作来获得一份完全保证一致性的快照以及其他可能性。

因此在域服务器上生成快照的程序是可拔插的。现在唯一的实现是"Flush Snapshot"，就是在生成快照之前进行写入操作（flush）来保证列一致性。其他的使用不同的一致性策略的程序可能会在未来实现。

在线生成快照需要的时间取决于实施快照操作并且将成功状态回报给主节点最慢的域服务器。这样的操作差不多在数秒之内完成。