【最新番茄社区源码】【查询数据网站源码】【网站站群源码】hbase compact 源码-皮皮网

【最新番茄社区源码】【查询数据网站源码】【网站站群源码】hbase compact 源码

2024-12-27 23:25:54 来源：知识分类：知识

1.Hbaseè¯»ååç
2.hbase majoråminorçåºå«
3.Hbase读写原理
4.HBase 底层原理详解（深度好文，源码建议收藏）
5.HBASE stop-hbase.sh åä¸ºä»ä¹HRegionServerè¿ç¨è¿å¨è¿è¡
6.LSM树详解

hbase compact 源码

Hbaseè¯»ååç

ä¸ååæåå«åå¨ä¸åçæä»¶å¤¹éã

ä¸MySQLæ¯è¾

é¦åHbaseæ¯ä¾èµäºHDFSåzookeeperçã

RegionServerç®¡çäºå¾å¤çRegionï¼è¡¨ï¼ï¼RegionServeréé¢çWAL(HLog)æ¯é¢åå¥æ¥å¿ï¼åè½æ¯é²æ¢ååä¸çæ°æ®æ²¡ææ¥çåè½çæ¶ä¸¢å¤±ãå¨Regionéé¢ç®¡ççStoreç®¡ççæ¯åæï¼Storeéé¢æMem Storeï¼ååï¼ï¼Flushä¹åï¼å é¤ååä¸çæ°æ®ï¼åæ¶åå¥æä»¶StoreFile Hfile,源码Hfile å¶å®æ¯å¨DataNodeéé¢çã

Hbaseçè¯»æ¯åæ¢ã

ï¼1ï¼é¦åå®¢æ·ç«¯åzkè¯·æ±åæ°æ®è¡¨æå¨çRegionServerï¼zkè¿åç»å®¢æ·ç«¯metaè¡¨æå¨çregionServerã

æ³¨ï¼metaè¡¨æå¨çä½ç½®ä¿¡æ¯ä¿åå¨zkçmeta-region-serverèç¹ä¸ï¼å®¢æ·ç«¯é¦åå°±æ¯å¨è¿ä¸ªèç¹ä¸å·®è¯¢metaè¡¨æå¨çRegionServerãmetaè¡¨éé¢çä¿¡æ¯å°±æ¯è¡¨ä¸å¶å¯¹åºçRegionServerçä¿¡æ¯

ä¸åçåææ¯å¨ä¸åçæä»¶å¤¹ã

MemStoreå·åæ¶æºï¼

å¨å±çMemStoreçå®¹éï¼é»è®¤æ¯å ååç%ãè¿ä¸ªå®¹éå¼ä¼è§¦åflushæä½ï¼ææçMemStoreé½è¦å·åï¼flushæä½ä¼é»å¡è¯»åæä½ã

ä¼å·åå¹¶é»å¡å°å°MemStoreå¤§å°éå°å®çæå¤§å®¹éç%

WALæ¥å¿çå·åæ¶æºï¼

ï¼1ï¼ä»zkæ¾metaè¡¨æå¨çRegionServer

ï¼2ï¼ä»ä¸è¿°RegionServeréçmetaè¡¨éæ¾ç®æ è¡¨æå¨çRegionServerï¼åæ¶æmetaè¡¨ç¼åï¼å éåé¢çæ¥è¯¢ã

RegionServeréé¢æblock Cacheå¯ä»¥ç¼åç£ççæ°æ®ï¼å éæ¥è¯¢ãå¦æblock Cacheéé¢æï¼å°±å°ç¼ååMemStoreçæ°æ®mergeç¶ååææ°æ¶é´æ³ï¼æ²¡æå°±æ¯æç£çè¯»çåMemStoreéé¢çåå¹¶ãæä»¥hbaseå¤§å¤æ°è¯»è¦èµ°ç£çï¼æä»¥è¯»å¾æ¢ã

æ¯æ¬¡å·åä¼çææ°çHfileï¼Hfileå¾å°å¹¶ä¸æ°éå¤çæ¶åä¼å½±åæ¥è¯¢çéåº¦ãæä»¥è¦è¿è¡åå¹¶ãåå¹¶åä¸ºminor Compactionåmajor Compaction

minor Compactionå°ä¸´è¿çè¥å¹²è¾å°çHfileåå¹¶æä¸ä¸ªè¾å¤§çHfileï¼ä¸ä¼æ¸çè¿æåå é¤çæ°æ®ï¼major Compactionä¼å°ä¸ä¸ªStoreéé¢çææHfileåå¹¶æä¸ä¸ªå¤§çHfileï¼å¹¶ä¸ä¼æ¸çæè¿æåå é¤çæ°æ®ã

ä½æ¯DDLè¯è¨æ¯è¦æHmasterç

Flushåmajor Compact

ï¼2ï¼major compaction ä¼æ¸é¤è¿ææå é¤çæ°æ®ã

Splitçæ¶æºï¼

ï¼1ï¼å½ä¸ä¸ªRegionä¸çæä¸ªStoreä¸çStoreFileçæ»å¤§å°æ¥è¿æä¸ªå¼ï¼ç±åæ°hbase.hregion.max.filesizeè®¾å®ï¼é»è®¤gï¼ï¼è¯¥Regionå°±ä¼æç§RowKeyè¿è¡æåã

ï¼2ï¼å¨æ°çæ¬ä¸è¿ä¸ªå¼æ¯Minï¼R^2*"hbase.hregion.memStore.flush.sizeï¼Mï¼","hbase.hregion.max.filesize"ï¼,Ræ¯å½åRegionServerä¸å±äºè¯¥TableçRegionä¸ªæ°ãåregionæ¯æç§RowKeyååçãè¿ä¼å¯¼è´æ°æ®å¾æï¼å°±æ¯å ä¸ºååçéå¼å¨ååï¼å¯¼è´ååä¹åçregionæ°æ®éä¸ååï¼å¯¼è´çç¹çé®é¢ãæä»¥å¨å»ºè¡¨çæ¶åè¦åé¢ååºï¼å°±æ¯ç¨RowKeyè§åå¥½å¤å°ä¸ªregionï¼ä¸è®©hbaseèªå·±çååé»è¾ååã

deleteæä½ï¼

ï¼1ï¼è®¾ç½®RowKeyï¼æçå é¤æ è®°æ¯deleteFamilyï¼å é¤å¤ä¸ªçæ¬

ï¼2ï¼è®¾ç½®RowKey+Familyï¼æçæ è®°æ¯deleteFamilyï¼å é¤å¤ä¸ªçæ¬

ï¼3ï¼è®¾ç½®RowKey+family+columnï¼æaddColumn()åaddColumns().addColumnæ¯å é¤ææ°ççæ¬æèå é¤æå®æ¶é´æ³ççæ¬ï¼å é¤æ è®°æ¯deleteæ è®°ãaddColumnsæ¯å é¤ææççæ¬æèå é¤æå®æ¶é´æ³æä¹åççæ¬ï¼å é¤æ è®°æ¯deleteColumn

Deleteçæä½å¶å®ä¹æ¯putæä½ï¼putçæ¯å é¤çæ è®°ã

å¨Hbaseä¸HMasterè´è´£çæ§HRegionServerççå½å¨æï¼åè¡¡RegionServerçè´è½½ï¼å¦æHMasterææäºï¼é£ä¸ªæ´ä¸ªHbaseéç¾¤å°å¤äºä¸å¥åº·çç¶æï¼å¹¶ä¸æ¤æ¶çå·¥ä½ç¶æä¸ä¼ç»´æå¤ªä¹ãæä»¥Hbaseæ¯æå¯¹HMasterçé«å¯ç¨éç½®ã

å¨Hbaseçconfç®å½ä¸æ°å»ºbackup-mastersæä»¶ï¼vimå å¥å¤ä»½Masterï¼æ¯å¦slave,slave.å¨ææä»¶ååå°åä¸ªslaveéï¼ç¶ååå¯å¨hbase å°±è½å®ç°HMasterçé«å¯ç¨äºã

ï¼1ï¼æå¨è®¾å®é¢ååº

æå¨è®¾ç½®RowKeyåäº5ä¸ªregion

ï¼2ï¼çæè¿å¶åºåé¢ååº

ï¼3ï¼æç§æä»¶ä¸è®¾ç½®çè§åé¢ååº

åå»ºsplit.txt

ç¶åæ§è¡

ï¼4ï¼ä½¿ç¨JavaAPIé¢ååº

ï¼1ï¼å¸ææ°æ®è½å¤å°½éååçåéå¨å¤ä¸ªååºéé¢ï¼æ£åæ§ï¼ã

ï¼2ï¼å¯ä¸æ§

ï¼3ï¼é¿åº¦ååï¼çäº§ç¯å¢å°ä½ï¼

å¸¸è§çè®¾è®¡æ¹æ¡ï¼

ï¼1ï¼çäº§éæºæ°ãhashãæ£åå¼

ï¼2ï¼åç¬¦ä¸²åè½¬

ï¼3ï¼åç¬¦ä¸²æ¼æ¥

çµä¿¡é¡¹ç®ï¼

ä¸æ¬¡éè¯çè®°å½ï¼-> -- ::

åè®¾åä¸ªåº

ååºé®æä¹è®¾è®¡ï¼

ï¼ä¸ªé®ï¼

...

RowKeyçåé¢ä¸è¬ä¼æ¼ä¸_,_,...,_

è¿æ ·åçå¥½å¤æ¯ï¼æ ¹æ®åä¸ä½å°±è½ç¥éåªä¸ªååºã

åå¸åä½ï¼[ï¼^ï¼.hash]%

åè®¾è¦æ¥è¯¢æç¨æ·å¹´2æçéè¯è®°å½ï¼å¯ä»¥ç¨ åstartRowkeyï¼ åendRowKey

å¾®åã

1ãéæ±

ï¼1ï¼å¾®ååå®¹çæµè§

ï¼2ï¼ç¨æ·ç¤¾äº¤ï¼å³æ³¨ç¨æ·ï¼åå³ç¨æ·

ï¼3ï¼æåå³æ³¨äººçå¾®åç¨æ·

2ãè®¾è®¡è¡¨

ï¼1ï¼å¾®ååå®¹è¡¨Content

è¡é®ï¼ç¨æ·id+æ¶é´æ³

ï¼2ï¼ç¨æ·å³ç³»è¡¨

è¡é®ï¼ç¨æ·id

ï¼3ï¼åå§åé¡µé¢çè¡¨ï¼æ¾ç¤ºå³æ³¨çäººçæè¿ä¸æ¡å¾®åï¼

hbase majoråminorçåºå«

HBaseAdminæä¾compactæ¹æ³æ¥æå¨åå¹¶å°æä»¶ public void compact(final byte [] tableNameOrRegionName) public void majorCompact(final byte [] tableNameOrRegionName) majorCompactä¼å¯¹ææçæä»¶è¿è¡Compactï¼ècompactä¼éååéçè¿è¡coã

Hbase读写原理

HBase的读写原理涉及到数据的存储、管理以及优化过程。源码在写入阶段，源码客户端的源码数据首先写入内存的MenStore，然后HBase会定期将MemStore内容写入StoreFile。源码最新番茄社区源码触发刷写的源码因素包括MemStore大小达到预设阈值、所有MemStore总和达到上限以及RegionServer的源码WAL文件数量限制。当达到高水位，源码写入操作会暂时阻塞，源码直到数据被刷写到磁盘。源码

读取数据时，源码与写入相反，源码HBase需要从文件开始查找，源码因此写操作通常比读操作更快。源码HBase利用LSM树（Log-Structured Merge Tree）进行底层数据存储，这种结构将数据增量保存在内存中，定期写入磁盘，以提升写入性能。读取时则涉及磁盘和内存数据的查询数据网站源码合并，有时会对读取性能产生影响。HBase通过布隆过滤器加速内存数据读取，同时提供flush、compact和major-compact指令进行数据管理和优化。

在删除操作中，HBase并不立即删除数据，而是添加删除标记，等待major-compact阶段才彻底删除，以保持历史版本的完整性和数据一致性。文件大小和数量达到一定阈值时，HBase会自动触发文件合并，以减少磁盘I/O和提高查询性能。

总的来说，HBase的读写机制在追求写入性能的同时，也注重数据的持久化和读取效率的优化，以适应大规模数据存储和处理的需求。

HBase 底层原理详解（深度好文，建议收藏）

HBase是一个分布式的、面向列的网站站群源码开源数据库，基于Hadoop，主要用于存储大量数据。它在HDFS之上构建，依赖Hadoop生态系统。HBase介于NoSQL和RDBMS之间，只能通过主键（row key）和范围检索数据，支持单行事务。其表具有行键排序和位置相关性特性。

HBase中表的特点是行键用于检索记录，支持三种访问方式：按行键、按行键范围和通过Zookeeper。行键可以是任意字符串，长度为KB，实际应用中长度一般为-bytes，存储为字节数组。行键排序存储，设计时应考虑经常一起读取的行应放在一起。存储时数据按字典顺序排序，读写操作是源码开发价格原子的。

列族是表的结构的一部分，列归属于列族。列族用于访问控制、磁盘和内存使用统计。列族过多会增加读取数据的I/O和搜索文件次数，因此除非必要，不要设置过多列族。

列是列族下的具体列，类似于MySQL中的具体列。时间戳用于记录数据的多个版本，通过行键、列和时间戳确定数据单元（cell）。HBase提供两种数据版本回收方式，根据列族设置。单元由row key、column和version唯一确定。数据存储为字节码，版本号为默认时间戳，类型为Long。源码app是什么

HRegion存储在HDFS上的StoreFile格式，每个StoreFile包含Trailer、FileInfo、Data Index、Meta Index和Data Block。Data Block是HBase I/O的基本单位，可选择压缩方式存储，以提高效率。每个Data Block由Magic、Key、Value组成，其中Value为二进制数据。

Memstore和StoreFile组成一个HRegion，写操作先写入Memstore，当达到阈值时，触发Flush到StoreFile。StoreFile达到一定大小，触发Compact合并操作或Split操作，实现负载均衡。读操作先在Memstore查找，找不到再查找StoreFile。

HLog（WAL log）用于记录数据变更，用于灾难恢复。每个Region Server维护一个Hlog，而非每个Region一个。合并操作分为Minor Compact和Major Compact，将相同Key的修改合并，形成大StoreFile。当StoreFile大小达到阈值，进行Split，分为两个StoreFile。

HBase的读写过程包括读请求和写请求。读请求先从Zookeeper获取Meta表信息，访问Meta表所在HRegionServer，扫描Memstore和StoreFile获取数据。写请求先写入HLog和Memstore，Memstore达到阈值触发Flush到StoreFile，系统记录redo point。数据写入后，进行Compact和Split操作，以维持高效的数据管理。

HRegion管理包括分配、上线和下线。HMaster记录HRegion Server状态，当需要分配HRegion时，发送装载请求给有空闲空间的HRegion Server。HRegion Server上线和下线由HMaster监控，HRegion Server下线时，HMaster重新分配HRegion。

HMaster工作机制包括上线和下线。HMaster下线导致元数据修改被冻结，集群短时间内不受影响。HMaster下线后，集群中会有一个HMaster等待时机抢占位置。

HBase的三个重要机制包括Flush机制、Compact机制和Split机制。Flush机制控制Memstore大小，触发数据写入StoreFile。Compact机制合并StoreFile，清理过期数据，将版本号保存为1。Split机制将过大的HRegion一分为二，减少StoreFile数量。

HBASE stop-hbase.sh åä¸ºä»ä¹HRegionServerè¿ç¨è¿å¨è¿è¡

LSM树详解

解锁LSM树的神秘面纱：存储性能的优化艺术

LSM树，一个看似平凡实则蕴含强大魔力的数据存储结构，它通过非严格树形布局，巧妙地平衡写入速度与读取效率。其核心策略在于顺序写入，MemTable（内存表）就像是数据的高速缓冲区，记录最近产生的数据，通过Write-Ahead Log (WAL) 确保数据的可靠性。当MemTable达到容量极限，数据会被转换为Immutable MemTable，并以SSTable（顺序读取的磁盘存储结构）的形式持久化。

LSM树巧妙地避免直接修改SSTable，从而减少写放大和存储冗余。读取时，虽然需要遍历所有SSTable，但通过索引优化，搜索效率得以提升。其中，Compact（合并SSTable）操作是关键所在，它能消除冗余，减少存储空间占用。有两种主要策略：size-tiered和leveled。

size-tiered策略通过设置每层SSTable的数量和大小限制，虽然可以控制文件大小，但可能导致大文件和空间浪费。而leveled策略更为智能，它在不同层次管理SSTable，确保每个key只在最合适的层中占用一条记录，有效防止空间放大。然而，写放大问题在leveled策略下尤为明显，需要在性能和存储效率之间找到平衡。

LSM树的设计思想在实践中得到广泛应用，比如在Hbase的MergeTree和ClickHouse的存储组件中，这些数据库凭借LSM树的特性实现了高效的数据处理。存储优化策略并非一蹴而就，Hbase的Major/Minor Compact提供了精细的控制，深入研究RocksDB的合并策略，能让你更深入理解LSM树的奥秘。

虽然LSM树的世界充满了细节和复杂性，但它正是推动现代数据库性能提升的基石。深入理解LSM树，无疑能让你在数据存储和管理的道路上走得更远。

参考资料：

《LSM Tree-Based存储引擎的compaction策略（RocksDB）》

【最新番茄社区源码】【查询数据网站源码】【网站站群源码】hbase compact 源码

关注了本文的网友还关注：

相关推荐

一周热点