BrightHouse存储引擎

来源：互联网发布：ppt图片数据分析编辑：程序博客网时间：2024/06/04 23:29

mysql支持多种存储引擎存储。这样，在处理不同类型数据的时候，可以针对不同业务场景，提供更为高效，灵活的方式。

mysql常见的存储引擎包括：MyISAM,InnoDB（最为常用的两种),MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE等。

现在大数据环境下，一般都使用hive作离线查询，hue则是hive查询的一个接口界面，运营人员一般都通过hue去hive里查找相关数据。但是hive作为基于MR的产品，有其天生的缺陷：
1.hive不管查询多大的数据量都需要启动job。如果是查询少量数据，启动job的时间远远大于实际查询时间。换句话说，不管多大的数据量，hive基本不可能在秒级给出查询结果。
2.hive受限于hadoop集群的计算资源。如果计算资源被占满，比如集群启动了某些大job，计算资源被占满，hive查询一直处于排队状态。这个时候运营人员会纷纷过来找RD，嚷嚷说为什么查了半天就是看不到结果。
3.hive属于sql的范式。对于非结构化的数据集，基本无能为力或者说很吃力。

因此在这种环境下，我们采用mysql+brighthouse的组合，能较好地解决这个问题。
brighthouse是infobright数据库的关键引擎。infobright 数据库是基于mysql的，它的设计主要是用于大规模的数据仓库和分析优化。开源社区版本可以免费试用。

安装过程不详细描述了（主要原因是不是我自己安装的…）。安装成功后，登录mysql。
这里写图片描述
如图所示，对应Engine的值就是BRIGHTHOUSE。

再查看一下此时mysql的引擎情况
这里写图片描述
如图所示，此时BRIGHTHOUSE已经成为我们的默认引擎，创建表的时候如果不指定引擎类型会自动创建成为BRIGHTHOUSE。

查了一些资料，社区版的不支持insert,update,delete对数据操作和alter对结构操作，不支持高并发查询操作，数据存储高压缩一般为18：1，不能与MyISAM,InnoDB等引擎进行连接查询 , 数据必须使用 LOAD 方式写入。
一般的load语句写法：

LOAD DATA INFILE 'filename' IGNORE INTO TABLE table_name CHARACTER SET utf8 FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' (fields)

filename是要导入数据的源文件，后面中的 \t 是每个数据之间的间隔符，\n 是每条数据的间隔符，fields 是对应的字段列表。

在里面新建一张表mvt_ptr_cvr_ab_test，然后导入将近100万的数据量，然后查询：

mysql> select count(*) from mvt_ptr_cvr_ab_test;+----------+| count(*) |+----------+|   997761 |+----------+1 row in set (0.00 sec)

如果在客户端查询，显示的时间为0.002ms。百万级数据，0.002ms，这速度，要逆天。。。

说了半天这东东的好处，同样在网上查了些资料，主要的不爽地方如下：
1.开源版不支持insert等数据操作语句，导入数据只能用load语句（这个导入数据很快）
2.还不支持UTF－8（这个最烦人了，尽管它提供了一种方案来解决这个问题）
3.企业版可也不便宜$10000/T （mysql才600刀）(数据仓库类的软件都很贵，这已经算很便宜的了^_^)
4.跟我们平常用的其他引擎（如innodb）不是很兼容，比如我们前面提到的不能与MyISAM,InnoDB等引擎进行连接查询

0 0