在正式进行讲述实现之前,我觉得有必要说一下出发点。团队期初数据都是基于 HBase+Phoenix
这样架构进行持久化。随着业务的复杂性增加,对部分表的查询效率和查询条件多样性,提出了更高的要求。HBase+Phoenix
就会出现索引滥用。变更索引变的特别的频繁,同时一些数据客观的表,变更索引的代价是非常大的。
在海量数据的查询方面,Elasticsearch 具有出色的性能。如果 HBase+ES
是不是会是更好的解决方法呢?其实,这个时候会有一个思考点,Phoenix 是如何实现二级索引的?HBase 协处理器(Coprocessor) 。
我的实现过程比较曲折,后文中也会提到,以帮助大家避免这些坑。在过程中,还尝试了另一种实现方案。存放两份数据,一份 HBase,一份 ES。该方案需要解决的一个问题——数据一致性问题,但这个问题协处理器可以解决。在此过程中,由于不当操作,把 HBase 服务宕机了,现象是 REGION SERVERS
无法启动,只有通过硬删的方式解决。
出于不死心,在经历重装 HBase 之后。内心又开始蠢蠢欲动。首先要声明一下,我们团队的环境是 HDP 3.0、HBase 2.0
,网上很多教程都是基于 1.X
,2.X 与 1.X
区别还是挺大的。RegionObserver
从继承方式改为了面向接口编程。
协处理器
没有选择协处理情况下,HBase 实现 RDBMS SQL 方式查询数据,大量的 Filter 需要在客户端进行编码完成,代码的臃肿,可维护性大大降低。如果这部分操作在服务器端完成,是否是更好的选择呢。协处理就能帮助实现该设想,由于在服务端完成,可以集中式优化查询,降低请求的带宽和提高查询效率。当然,对 HBase 性能产生了一定影响。
类型
- Observer
- Endpoint
Observer
Observer 协处理器类似于 RDBMS 中的触发器,当事件触发的时候该类协处理器会被 Server 端调用。
Endpoint
Endpoint 协处理器类似传统数据库中的存储过程,完成一些聚合操作。
实现
基础尝试
避免 ES 连接操作、代码复杂性导致的 Bug,在最初只通过打日志的方式来验证协处理方式。
代码实现概览
HbaseDataSyncEsObserver.java
1 | package com.tairanchina.csp.dmp.examples; |
pom.xml
1 | <?xml version="1.0" encoding="UTF-8"?> |
包处理
打包
1 | mvn clean assembly:assembly -Dmaven.test.skip=true |
这里 package 得到的包必须是将依赖都包含在内的,否则,会报类找不到之类的错误。
上传包的时候,需要上传到 HDFS 下,同时,要给 hbase 用户授予权限,因而,我在测试的过程中,将其上传到 /apps/hbase
下(HDP 环境)。由于包名太长,这里对包名进行了重命名。
装载协处理器
1 | 创建测试表 |
测试
1 | put 'gejx_test', '2','cf:name','gjx1' |
查看日志要先在 HBase Master UI
界面下,确定数据存储在哪个节点上,再到相应的节点下面的 /var/log/hbase
下查看日志
1 | tail -100f hbase-hbase-regionserver-test.example.org.out |
卸载协处理器
1 | disable 'gejx_test' |
以上,已经完成最基础的协处理器实现。接下来进行讲述 ES 的一种实现方案。
HBase+ES
这里为了快速论证结果,在编码方面采用了硬编码方式,希望理解。
代码实现概览
ElasticSearchBulkOperator.java
1 | package com.tairanchina.csp.dmp.examples; |
ESClient.java
1 | package com.tairanchina.csp.dmp.examples; |
HbaseDataSyncEsObserver.java
1 | package com.tairanchina.csp.dmp.examples; |
其他方面的操作与上文操作类似,这里不再进行缀诉,直接看 Kibana 结果。
讲在最后
上文中 HBase+ES
实现方案是在 HBase 和 ES
各自存放一份数据,使用协处理器达到数据一致性。这种方案存在数据冗余问题,在 ES 这边需要准备大量的存储空间。
还有一种方案也是比较流行的。使用 ES 作为二级索引的实现。使用协处理将需要查询的表查询字段与 RowKey 关系保存到 ES,查询数据的时候,先根据条件查询 ES 得到 RowKey,通过得到的 RowKey 查询 HBase 数据。以提高查询的效率。
Anyway,这两种方案都需要解决历史数据的问题和还有需要注意数据更新操作。
Q&A
遇到
None of the configured nodes are available
错误信息?请检查一下 ES 的
cluster.name
配置是否错误。为什么
Hbase 2.0 Observer
未生效?HBase 2.0
中 observer 接口有变化。你需要实现RegionCoprocessor
的getRegionObserver
接口。发现已经更新包,协处理器还是在执行历史代码?
当更新包的时候,要进行包名的变更,否则,可能会出现类似于缓存的现象问题。
待确认
- 未停用的情况下,更新 jar(已测试未操作表的时候,支持更新)
- 测试多张表公用同一个 jar
引文
使用Hbase协作器(Coprocessor)同步数据到ElasticSearch