## HBase 版本和歷史
年份 | 事件
---|---
2006 | Google 發表 BigTable 論文
2007 | 隨著 Hadoop 0.15.0,第一個可用的 HBase 也發布了。
2008 | HBase 成為 Hadoop 的子項目
2010 | HBase 成為 Apache 的頂級項目
2011 | HBase 0.9.0 發布
2015 | HBase 1.0.0 發布
2018 | HBase 2.0.0 發布
年份 | 事件
---|---
2006 | Google 發表 BigTable 論文
2007 | 隨著 Hadoop 0.15.0,第一個可用的 HBase 也發布了。
2008 | HBase 成為 Hadoop 的子項目
2010 | HBase 成為 Apache 的頂級項目
2011 | HBase 0.9.0 發布
2015 | HBase 1.0.0 發布
2018 | HBase 2.0.0 發布
2018-06-18
HBase 表數據模型:
表數據模型就是指數據在表中是如何進行填充的。HBase 表數據模型中,有以下幾個核心概念:
- Row key:主鍵,數據的唯一標識,按字典排序
- Time Stamp:時間戳,支持多版本數據同時存在
- Cloumn Family:列簇,是多個列的集合,具有以下性質:
- 一張表的列簇不會超過5個;
- 每個列簇中的列數沒有限制;
- 列動態伸縮,并且列只有插入數據后才存在;
- 列在列簇中是有序的。
表數據模型就是指數據在表中是如何進行填充的。HBase 表數據模型中,有以下幾個核心概念:
- Row key:主鍵,數據的唯一標識,按字典排序
- Time Stamp:時間戳,支持多版本數據同時存在
- Cloumn Family:列簇,是多個列的集合,具有以下性質:
- 一張表的列簇不會超過5個;
- 每個列簇中的列數沒有限制;
- 列動態伸縮,并且列只有插入數據后才存在;
- 列在列簇中是有序的。
2018-06-18
HBase 表結構模型:
在經典的 RDBMS 中,我們設計表結構模型時,只需要確定有多少個列即可,然后就可以對這個表進行數據的操作。而對于 HBase 來說,設計表結構模型時不需要確定列,只需要確定列簇(column family)即可,列的數量根據列簇里面的數據進行動態伸縮,為空的列并不占用存儲空間。
在經典的 RDBMS 中,我們設計表結構模型時,只需要確定有多少個列即可,然后就可以對這個表進行數據的操作。而對于 HBase 來說,設計表結構模型時不需要確定列,只需要確定列簇(column family)即可,列的數量根據列簇里面的數據進行動態伸縮,為空的列并不占用存儲空間。
2018-06-18
## HBase 周邊生態
HBase 與 Hadoop 生態系統其他組件的關系非常緊密:
- HDFS 為 HBase 提供了高可靠性的底層存儲支持。
- MapReduce 為 HBase 提供了高性能的計算能力。
- Zookeeper 為 HBase 提供了穩定性及 failover 機制的保障。
- Hive 可以與 HBase 相結合,使在 HBase 進行數據統計處理變得簡單。
- Sqoop 為 HBase 提供了方便的 RDBMS 數據遷移功能
- Spark 等高性能的基于內存的分布式計算引擎也可能幫助我們更加快速的對 HBase 中的數據進行處理分析。
HBase 與 Hadoop 生態系統其他組件的關系非常緊密:
- HDFS 為 HBase 提供了高可靠性的底層存儲支持。
- MapReduce 為 HBase 提供了高性能的計算能力。
- Zookeeper 為 HBase 提供了穩定性及 failover 機制的保障。
- Hive 可以與 HBase 相結合,使在 HBase 進行數據統計處理變得簡單。
- Sqoop 為 HBase 提供了方便的 RDBMS 數據遷移功能
- Spark 等高性能的基于內存的分布式計算引擎也可能幫助我們更加快速的對 HBase 中的數據進行處理分析。
2018-06-17