AppZone

阿里巴巴大数据实践之数据仓库读书笔记

发表于 2020-02-13 |

名词说明

业务板块

定义数据仓库的名称和业务空间，以企业内一个相对独立的业务为分配单元。例如，如果业务涉及零售、文娱，且系统间相对独立，则需要构建两个业务板块，即零售、文娱。如果业务仅涉及零售，且业务内的系统间隔离较少，则只需要构建一个业务板块，即零售。

阅读全文 »

数据治理--元数据

发表于 2020-02-08 |

元数据是对某个潜在信息性对象做出的陈述。在浏览其他网页的时候会看到元数据被称之为 “数据的数据”。为了更好的描述元数据到底是什么东西，我以一本《Metadata》书作为例子进行说明。《Metadata》第二页记录着该书的 CIP 信息、作者、出版社、书号、定价、印次、字数等信息，而这些信息都是用于描述《Metadata》这本书的元数据。

一条元数据记录就是关于一个资源的主谓宾陈述集合。例如：达芬奇（宾语）是蒙娜丽莎（主语）的创作者（谓语）。

阅读全文 »

谈谈 Spark 应用日志级别的坑

发表于 2019-06-24 |

环境说明：HDP 3.0 + Kerberos + Livy

根据 Spark 官方文档的指引，清楚的知道存在三种方式可以对应用的日志级别进行调整。

阅读全文 »

优秀的数据同步方案如何设计

发表于 2019-06-10 |

应用开发中，为了提升查询性能或者做服务降级方案时，我们会使用缓存作为解决方案，像分布式缓存方案，比如 Redis、Memcache等；本地缓存方案，比如 Guava、Caffeine等。如果仅仅对当前服务的执行结果的缓存，用于下次相同查询时加快查询效率来说，还相对简单一点。只需要将查询条件作为key，返回的结果作为 value 即可实现，复杂一点会加上缓存失效机制等。

阅读全文 »

HBase Thrift with Python

发表于 2019-05-19 |

说在文前

本文内容是基于 Centos 7、HDP 3.0.0、HBase 2.0.0、Python 2.7 环境下，其他环境的童鞋选择性进行参考。

Thrift 安装在 HBase 服务节点上即可。

阅读全文 »

记一次 Git 管理经历

发表于 2019-04-01 |

随着负责的项目越来越大，出现了专人维护一个模块的可能，业务与模块划分变得清晰可见，但出现了如下几个问题：

阅读全文 »

HBase 2.0 协处理器实现 ES 数据同步

发表于 2019-01-30 |

在正式进行讲述实现之前，我觉得有必要说一下出发点。团队期初数据都是基于 HBase+Phoenix 这样架构进行持久化。随着业务的复杂性增加，对部分表的查询效率和查询条件多样性，提出了更高的要求。HBase+Phoenix 就会出现索引滥用。变更索引变的特别的频繁，同时一些数据客观的表，变更索引的代价是非常大的。

阅读全文 »