HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。与FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。
HBase是一个分布式、面向列的开源数据库,是Apache顶层项目,适用于非结构化数据存储的数据库。在Hadoop家族中,很多产品为HBase提供服务:
- Hadoop HDFS为HBase提供了高可靠性的底层存储支持;
- Hadoop MapReduce为HBase提供了高性能的计算能力;
- Zookeeper为HBase提供了稳定服务和failover机制;
- Pig和Hive为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单;
- Sqoop为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。
1 准备
在HBase单机模式部署中,已经描述了HBase在单独的一台电脑上独立完成其所提供的数据库功能的操作。与Hadoop类似,HBase也可以在伪分布式模式下进行部署。在伪分布式模式中,HBase运行在单个节点上,每个HBase守护进程(包括HMaster、HRegionServer和HQuorumPeer)运行在单独的进程中。为了体现分布式,可以使用HDFS替代本地文件系统。所以,需要首先启动HDFS。
2 配置
HBase的配置文件集中在$HBASE_HOOME/conf/hbase-site.xml中(比Hadoop分散的配置文件好多了╮(╯▽╰)╭)。
2.1 指定运行模式
首先,指定HBase的运行模式是分布式模式,保证每个JVM来运行一个HBase守护进程。
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
2.2 指定文件系统
指定文件系统使用HDFS上的hbase目录,而且保证这个目录在HDFS上没有,HBase会自己创建,否则会报错。
<property>
<name>hbase.rootdir</name>
<value>hdfs://192.168.1.134:9000/hbase</value>
</property>
如果不修改hbase.rootdir,数据会写在/tmp目录中或HBase单机模式部署中配置的本地文件系统中。
3 启动HBase
依然是用$HBASE_HOME/bin/start-hbase.sh
脚本启动。如果一切正常,通过jps
命令,可以查询到HMaster、HRegionServer和HQuorumPeer:
3265 HMaster
3841 Jps
2801 SecondaryNameNode
3174 HQuorumPeer
2556 NameNode
2652 DataNode
3389 HRegionServer
因为这里的Hadoop也是使用的伪分布式模式部署的,所以除了HBase的3个进程外,还有Hadoop的dfs的3个进程。
4 检查HDFS中HBase的目录
如果工作正常,HBase会在HDFS上成功创建需要的目录。
$ hdfs dfs -ls /hbase
Found 6 items
drwxr-xr-x - lxh supergroup 0 2014-10-15 01:20 /hbase/.tmp
drwxr-xr-x - lxh supergroup 0 2014-10-15 01:20 /hbase/WALs
drwxr-xr-x - lxh supergroup 0 2014-10-15 01:12 /hbase/data
-rw-r--r-- 1 lxh supergroup 42 2014-10-15 01:12 /hbase/hbase.id
-rw-r--r-- 1 lxh supergroup 7 2014-10-15 01:12 /hbase/hbase.version
drwxr-xr-x - lxh supergroup 0 2014-10-15 01:24 /hbase/oldWALs
5 通过shell测试
可以通过使用HBase shell创建表等操作,验证伪分布式的HBase。具体操作可以查看这里,此处不再赘述。
6 启动/停止一个HMaster备份服务
HMaster服务控制整个HBase集群。可以启动n个HMaster服务的备份,形成n+1个HMaster服务。使用$HBASE_HOME/bin/local-master-backup.sh
可以启动HMaster备份服务。执行该脚本时,需要提供一个参数,用于指定HMaster所使用的两个端口6000、60010。给定的数字会加到这三个默认端口上,比如给定2,启动的HMaster备份服务使用的端口就变成60002和60012。下面的命令启动3个备份服务,使用的端口分别为:60002/60012、60003/600013、60005/60015。
注:这里需要注意一下,官方文档中对于HMaster的端口描述和实际操作不一样。官方文档写的是三个端口默认是16010、16020和16030,其他的根据数字相加不变。也就是根据官方文档描述,通过下面的命令启动的3个HMaster使用的端口是16012/16022/16032、16013/16023/16033和16015/16025/16035。
$ local-master-backup.sh start 2 3 5
通过jps
查看进程:
5793 HMaster
4053 SecondaryNameNode
6374 Jps
4584 HRegionServer
3864 DataNode
3770 NameNode
6026 HMaster
6123 HMaster
5932 HMaster
4366 HQuorumPeer
会发现,多了3个HMaster。
通过命令查看HMaster服务监听的端口号:
$ lsof -Pnl +M -i6|grep -E `echo \`ps -ef|grep HMaster|grep -v grep|awk '{print $2}'\`|awk '{for(i=1;i<NF;i++)printf $i"|";print $NF}'`|grep -v ESTABLISHED
得到结果为:
java 5793 500 291u IPv6 39951 0t0 TCP 127.0.0.1:60000 (LISTEN)
java 5793 500 335u IPv6 39980 0t0 TCP *:60010 (LISTEN)
java 5932 500 291u IPv6 40495 0t0 TCP 127.0.0.1:60002 (LISTEN)
java 5932 500 335u IPv6 41186 0t0 TCP *:60012 (LISTEN)
java 6026 500 291u IPv6 40875 0t0 TCP 127.0.0.1:60003 (LISTEN)
java 6026 500 335u IPv6 41249 0t0 TCP *:60013 (LISTEN)
java 6123 500 291u IPv6 41194 0t0 TCP 127.0.0.1:60005 (LISTEN)
java 6123 500 335u IPv6 41262 0t0 TCP *:60015 (LISTEN)
使用脚本$HBASE_HOME/bin/local-master-backup.sh
可以停止已启动的备份服务:
$ local-master-backup.sh stop 2 3 5
7 启动/停止更多的RegionServer服务
HRegionServer管理HMater指定的文件存储上的数据。通常,集群中每个节点运行一个HRegionServer。通过$HBASE_HOME/bin/local-regionservers.sh
可以启动多个HRegionServer服务。每个HRegionServer服务使用两个端口60020和60030。
注:与上面提到的HMaster一样,这里的HRegionServer默认端口也与官方文档不一致。官方文档描述默认端口是16020和16030。
$ local-regionservers.sh start 2 3 4 5
通过jps查看:
5793 HMaster
6881 Jps
6805 HRegionServer
4053 SecondaryNameNode
6709 HRegionServer
4584 HRegionServer
3864 DataNode
3770 NameNode
6620 HRegionServer
4366 HQuorumPeer
6527 HRegionServer
通过命令查看HMaster服务监听的端口号:
$ lsof -Pnl +M -i6|grep -E `echo \`ps -ef|grep HRegionServer|grep -v grep|awk '{print $2}'\`|awk '{for(i=1;i<NF;i++)printf $i"|";print $NF}'`|grep -v ESTABLISHED
得到结果为:
java 4584 500 291u IPv6 30969 0t0 TCP 127.0.0.1:60020 (LISTEN)
java 4584 500 329u IPv6 30993 0t0 TCP *:60030 (LISTEN)
java 6527 500 291u IPv6 43515 0t0 TCP 127.0.0.1:60202 (LISTEN)
java 6527 500 329u IPv6 43613 0t0 TCP *:60302 (LISTEN)
java 6620 500 291u IPv6 44259 0t0 TCP 127.0.0.1:60203 (LISTEN)
java 6620 500 329u IPv6 44602 0t0 TCP *:60303 (LISTEN)
java 6709 500 291u IPv6 44578 0t0 TCP 127.0.0.1:60204 (LISTEN)
java 6709 500 329u IPv6 44621 0t0 TCP *:60304 (LISTEN)
java 6805 500 291u IPv6 44607 0t0 TCP 127.0.0.1:60205 (LISTEN)
java 6805 500 329u IPv6 44635 0t0 TCP *:60305 (LISTEN)
多了4给HRegionServer服务。
$ local-regionservers.sh stop 3
8 停止HBase
直接使用脚本stop-hbase.sh
停止。
$ ./bin/stop-hbase.sh
stopping hbase....................