AppZone

分享快乐,感受科技的温度

  • 首页
  • SpringBoot
  • SpringCloud
  • Sharing
  • 归档
  • 搜索

阿里巴巴大数据实践之数据仓库读书笔记

发表于 2020-02-13 |

名词说明

业务板块

定义数据仓库的名称和业务空间,以企业内一个相对独立的业务为分配单元。例如,如果业务涉及零售、文娱,且系统间相对独立,则需要构建两个业务板块,即零售、文娱。如果业务仅涉及零售,且业务内的系统间隔离较少,则只需要构建一个业务板块,即零售。

阅读全文 »

数据治理--元数据

发表于 2020-02-08 |

元数据是对某个潜在信息性对象做出的陈述。在浏览其他网页的时候会看到元数据被称之为 “数据的数据”。为了更好的描述元数据到底是什么东西,我以一本《Metadata》书作为例子进行说明。《Metadata》第二页记录着该书的 CIP 信息、作者、出版社、书号、定价、印次、字数等信息,而这些信息都是用于描述《Metadata》这本书的元数据。

一条元数据记录就是关于一个资源的主谓宾陈述集合。例如:达芬奇(宾语)是蒙娜丽莎(主语)的创作者(谓语)。

阅读全文 »

谈谈 Spark 应用日志级别的坑

发表于 2019-06-24 |

环境说明:HDP 3.0 + Kerberos + Livy

根据 Spark 官方文档的指引,清楚的知道存在三种方式可以对应用的日志级别进行调整。

阅读全文 »

优秀的数据同步方案如何设计

发表于 2019-06-10 |

应用开发中,为了提升查询性能或者做服务降级方案时,我们会使用缓存作为解决方案,像分布式缓存方案,比如 Redis、Memcache等;本地缓存方案,比如 Guava、Caffeine等。如果仅仅对当前服务的执行结果的缓存,用于下次相同查询时加快查询效率来说,还相对简单一点。只需要将查询条件作为key,返回的结果作为 value 即可实现,复杂一点会加上缓存失效机制等。

阅读全文 »

HBase Thrift with Python

发表于 2019-05-19 |

说在文前

本文内容是基于 Centos 7、HDP 3.0.0、HBase 2.0.0、Python 2.7 环境下,其他环境的童鞋选择性进行参考。

Thrift 安装在 HBase 服务节点上即可。

阅读全文 »

记一次 Git 管理经历

发表于 2019-04-01 |

随着负责的项目越来越大,出现了专人维护一个模块的可能,业务与模块划分变得清晰可见,但出现了如下几个问题:

阅读全文 »

HBase 2.0 协处理器实现 ES 数据同步

发表于 2019-01-30 |

在正式进行讲述实现之前,我觉得有必要说一下出发点。团队期初数据都是基于 HBase+Phoenix 这样架构进行持久化。随着业务的复杂性增加,对部分表的查询效率和查询条件多样性,提出了更高的要求。HBase+Phoenix 就会出现索引滥用。变更索引变的特别的频繁,同时一些数据客观的表,变更索引的代价是非常大的。

阅读全文 »

HBase ACL 实现

发表于 2018-08-01 |

HBase ACL 可以实现不同的用户、Group与Namespace、Table、ColumnFamily层级的数据权限控制

阅读全文 »

Kafka Consumer重置Offset

发表于 2018-07-20 |

在Kafka Version为0.11.0.0之后,Consumer的Offset信息不再默认保存在Zookeeper上,而是选择用Topic的形式保存下来。

在命令行中可以使用kafka-consumer-groups的脚本实现Offset的相关操作。

更新Offset由三个维度决定:Topic的作用域、重置策略、执行方案。

阅读全文 »

Asciidoctor Maven插件使用

发表于 2018-07-05 |

在项目应用中,我们会写很多文档去传递我们的设计思想、开发经验、采坑经历等等。使用Asciidoc的格式对非技术人员就不是那么的友好,或者说传递性、通用性与PDF和网页相比就差很多了。在JVM项目中可以使用Maven的插件方式将.adoc文件格式转化为PDF、HTML、EPUB等文件格式。

阅读全文 »
12…5
迹_Jason

迹_Jason

分享快乐,感受科技的温度

49 日志
4 标签
github weibo
© 2020 迹_Jason
由 Hexo 强力驱动
|
主题 — NexT.Mist v6.0.6