第三章|实时数仓之架构
发布日期:2021-07-17 15:49:08 浏览次数:9 分类:技术文章

本文共 898 字,大约阅读时间需要 2 分钟。

实时数仓V1版本

下面滴滴打车实时数仓的架构v1版:

优势:相较于单个业务需求开发效率高,快速完成业务需求

不足:数据复用性差,相较于整个业务大盘来说开发效率低,资源浪费严重,可维护性差,口径变更需要多出修改,复杂的业务逻辑,需要在多个任务中去实现,尤其是实时去重复,实时维度关联等场景。

实时数仓V2版本

下面滴滴打车实时数仓的架构v2版:

优势:初步体现了数仓分层,数据实现了复用,整个业务单开发效率有明显提升,由于对数据实现了复用,整体计算资源也有了明显的下降30%+

不足:没有进行指标层面的沉淀,每个同学各自实现各自的字表,会出现指标口径不统一,并且还不容易维护,如果指标变动,同步不到位,还会带来口径差异,提供服务依赖于OLAP引擎

实时数仓V3版本

下面滴滴打车实时数仓的架构v3版:

优势:完成整体数据分层,包含明细数据和汇总数据,统一DWD层,降低资源浪费,提高数据服用行,完成指标口径沉淀,保证数据质量

A&Q-问题1

狗哥,复杂的业务逻辑在哪里处理

比如我们需要实时关联kv维度数据,实时去重复的逻辑等等

这个需要提前在DWD层进行收口,也就是充分利用flink的能力,进行提前预处理,参考《阿里菜鸟实时数仓》

A&Q-问题2

狗哥,为啥实时数仓的存储引擎都喜欢用OLAP做存储呀?我们选什么引擎比较好呢?

因为即可以做实时计算,又可以做实时数据分析,还可以方便查看历史明细数据,方便快速定位线上问题,并且机遇olap引擎,使用通用的sql语句,可以更高效的支持线上的业务,狗哥建议你使用doris,谁用谁知道,用完感觉好到爆哈哈。

A&Q-问题3

狗哥,为啥doris好呢?为啥不用clickhouse呢?

首先clickhouse很好,我相信它可以找到更好的使用方。doris实时多表本地join,实时shema变更,标准sql,算法,工程,bi取数据上手快,有些不紧急的需求,让他们写sql就行了,解放了劳动力。

A&Q-问题3

狗哥,有实时数仓ppt吗?

有,关注下方公众号,回复:实时数仓。如果你经常点外卖,记得关注我的《外卖助手奇奇》,每天都可以另取叠加外卖券。

转载地址:https://blog.csdn.net/huzechen/article/details/116810906 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:猿辅导 x DorisDB:构建统一OLAP平台,全面升级数据分析能力
下一篇:Flink 实时计算在微博的应用

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月19日 01时34分36秒