用hbase存储excel(hbase存储过程)

Exce表格网 2023-02-28 08:25 编辑:admin 301阅读

1. hbase存储过程

HRegion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。

2. hbase存储机制

表(Table): 表名是映射成hdfs上面的文件,所以要合法名字。

行(Row): 每一行都是以一个行键(Row Key)来进行唯一标识的,以二进制的字节来存储。

列族(Column Family): 列族一旦确定后,就不能轻易修改,因为它会影响到HBase真实的物理存储结构,但是列族中的列标识(Column Qualifier)以及其对应的值可以动态增删。表中的每一行都有相同的列族,但是不需要每一行的列族里都有一致的列标识(Column Qualifier)和值,所以说是一种稀疏的表结构,这样可以一定程度上避免数据的冗余。

单元(Cell): 每一个 行键,列族和列标识共同组成一个单元,以二进制字节来存储。

时间戳(Timestamp): 默认下每一个单元中的数据插入时都会用时间戳来进行版本标识。

3. hbase是如何存数据的,为什么读得快

他们的关系是:hbase是一个内存数据库,而hdfs是一个存储空间;是物品和房子的关系。 hdfs只是一个存储空间,他的完整名字是分布式文件系统。从名字可知他的作用了。 hbase是一个内存数据库,简单点说hbase把表啊什么的存在hdfs上。 Hbase与HDFS的性质和属性。 1、Hbase是Hadoop database,即Hadoop数据库。它是一个适合于非结构化数据存储的数据库,HBase基于列的而不是基于行的模式。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据。

2、HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。 Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS为他们提供了高可靠性的底层存储支持。

4. 解释一下hbase的存储结构

HRegion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。

HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。

HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。

事实上,HRegion由一个或者多个Store组成,每个store保存一个columns family。

每个Strore又由一个memStore和0至多个StoreFile组成

5. hbase存储原理

共同点:

1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:

2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。

3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。

4.Hive query就是MapReduce jobs可以从5分钟到数小时不止,HBase是非常高效的,肯定比Hive高效的多。

5.Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。

6.hive借用hadoop的MapReduce来完成一些hive中的命令的执行7.hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。8.hbase是列存储。9.hdfs作为底层存储,hdfs是存放文件的系统,而Hbase负责组织文件。10.hive需要用到hdfs存储文件,需要用到MapReduce计算框架。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片