浅谈大数据HBase的开发
一.HBase概述
HBase我个人理解它是一个大的分布式数据库,可以存储海量的数据。像我们平时使用的MySql可以存储的数量级为几千万条数据,Oracle数据库可以达到亿级别数据量,而HBase是分布式的,不管有多少的数据量,只要你的集群磁盘容量足够,那么它就可以存储下来。
二.HBase的rowKey的设计
通常我们在使用HBase的时候,若想达到秒级别的查询,rowKey的设计就至关重要。因为HBase中有一个特性,通过rowKey查询可以最大程度的使用HBase的性能。rowKey的设计有几个原则:第一是长度原则,建议最好不要超过16个字节,因为字节太长需要更多的空间去存储它,占用过多的资源;第二是散列原则,HBase有很多的regionServer,不同的服务分布到不同的机器上,假如rowKey都比较集中的话很容易导致热点问题的产生,热点问题会给集群产生很大的压力。像我们平时常用的rowKey是由uid和时间进行组合。
三.HBase的读写流程
读过程是根据表名和rowKey找到对应的region,zookeeper存储了meta表的region信息,从meta表中获取相应的region的信息,然后找到对应的regionserver,最后找到ui应的region。写过程与读过程基本一致。
四.HBase的优化
优化可以从GC的处理,内存的管理,日志管理等方面进行,比如我们需要数据能够快速的写入HBase中,那么我们在写入的时候不能立刻更新数据库,而是需要建立一个缓存空间,等到写入的数据量达到缓存大小的时候再刷新数据库,这会在相同的时间内插入更多的数据量。同时我们可以关闭服务端的写WLAG日志,这样也会在性能上起到很大的作用。
—— END ——
国内领先的
大数据整体解决方案为客户提供大数据分析平台端到端解决方案
Ebistrategy
亦 策 软 件
400-676-1711
长按关注
- 易观荣获2018虎啸盛典“年度大数据&智能公司大奖”
- 欧冶“互联网+钢铁”大数据教育实践基地开课啦!喜迎第一批济光
- 未来房价到底会不会下跌,这个数据很有说服力
- 非常重要!3+证书考生填报志愿之前,一定要了解这些数据。
- 浅谈萌系塔防《大头三国》中的养成体系
- 郑州市最新房产数据:新建商品房环比下跌,二手房均价环比上涨!
- 2018年5月南阳市房地产市场交易数据分析,看过你觉得还会降吗?
- 【2018志愿必备数据】116所“211”高校,2017在陕录取情况汇总!
- 3秒钟实现16000行数据自动分组编号【Excel教程】
- 看了这些平均数据,三四线城市买房其实挺容易