-
rowkey相當于表的行主鍵。timestamp是時間戳。Hbase是基于key-value形式的。所以在列簇內,每一列都有一個key和value。
????列簇的注意事項:
????????1、一張表的列簇不會超過5個,超過5個會影響查詢效率
????????2、每個列簇中的列數沒有限制
????????3、列只有插入數據后才會存在,沒插入數據不會占用磁盤空間
查看全部 -
在創建Hbase表的時候,不需要創建列,只需要創建對應的列簇即可。列簇內的列的數量是可以設置超過上百萬個的,列的個數不需要一開始就設定,可以后續動態增加。但是列簇建議不要多余5個。每個列簇,相當于一個分類。
查看全部 -
依賴的外部服務:HDFS、zookeeper
內部進程服務:RegionServer、Master
使用Hbase,需要先安裝HDFS分布式文件系統和Zookeeper注冊中心。
Hbase包括主進程master和多個regionServer子進程。
當表數據量很大的時候,可以對表進行分區,分成多個region。regionServer負責管理region.
regionServer會將分區的運行情況報告給master,方便master隨時將宕機的region分配到其他的region。
查看全部 -
Hadoop生態圖
查看全部 -
選擇合適的HBase版本:
官方版本:http://archive.apache.org/dist/hbase/
CDH版本:http://archive.cloudera.com/cdh5
查看全部 -
Hbase是一個分布式的、可擴展的、大數據存儲的、Hadoop數據庫。
Hbase 是一個 開源的 分布式 多版本 非關系型數據庫
查看全部 -
Hbase的特點
1、容量大:Hbase單表可以有百億行、百萬列,數據矩陣橫向和縱向兩個維度所支持的數量級都非常有彈性
2、面向列:Hbase是面向列的存儲和權限控制、并支持獨立檢索。列式存儲,其數據在表中是按照某列存儲的,這樣在查詢只需要少數幾個字段的時候,能夠大大減少讀取的數據量(關系型數據庫是,先將列定義好,然后寫數據,hbase的列是可以動態增加的)
3、多版本:Hbase每一個列的數據存儲有多個version
4、稀疏性:為空的列不占用存儲空間、表可以設計的非常稀疏
5、擴展性:底層依賴于HDFS(分布式文件系統)
6、高可靠性:?WAL機制保證了數據寫入時不會因集群異常而導致寫入數據丟失:Replication機制保證了在集群出現嚴重的問題時,數據不會發生丟失或損壞.而且HBase底層使用HDFS HDFS本身也有備份.
7、高性能:底層的LSM數據結構和Rowkey有序排列等架構上的獨特設計,使得HBase具有非常高的寫入性能.region切分、主鍵索引和緩存機制使得HBase在海量數據下具備一定的隨機讀取性能,改性能針對Rowkey的查詢能夠達到毫秒級別.
查看全部 -
Hbase在實際業務場景中的應用
1、交通
2、金融
3、電商
4、移動
查看全部 -
應用場景:1.海量數據存儲。2.準實時查詢。
上百億行*上百億列,實現百毫秒查詢。
hbase應用于海量數據存儲,只有當數據量非常大的時候,Hbase才能發揮其相應的威力。比如幾百萬的數據量,是完全沒有必要用到Hbase的。
查看全部 -
數據模型查看全部
-
版本選擇查看全部
-
the comparison between HBase and relational database
查看全部 -
HBase table structure model
查看全部 -
HBase architecture
查看全部 -
Apache Hadoop Ecosystem
查看全部
舉報