當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据查询和业务流分开_数据仓库介绍与实时数仓案例

發(fā)布時間：2025/4/5 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了数据查询和业务流分开_数据仓库介绍与实时数仓案例小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.數(shù)據(jù)倉庫簡介

數(shù)據(jù)倉庫是一個面向主題的（Subject Oriented）、集成的（Integrate）、相對穩(wěn)定的（Non-Volatile）、反映歷史變化（Time Variant）的數(shù)據(jù)集合，用于支持管理決策。

數(shù)據(jù)倉庫是伴隨著企業(yè)信息化發(fā)展起來的，在企業(yè)信息化的過程中，隨著信息化工具的升級和新工具的應(yīng)用，數(shù)據(jù)量變的越來越大，數(shù)據(jù)格式越來越多，決策要求越來越苛刻，數(shù)據(jù)倉庫技術(shù)也在不停的發(fā)展。

數(shù)據(jù)倉庫的趨勢：

實時數(shù)據(jù)倉庫以滿足實時化&自動化決策需求；
大數(shù)據(jù)&數(shù)據(jù)湖以支持大量&復(fù)雜數(shù)據(jù)類型（文本、圖像、視頻、音頻）；

2.數(shù)據(jù)倉庫的發(fā)展

數(shù)據(jù)倉庫有兩個環(huán)節(jié)：數(shù)據(jù)倉庫的構(gòu)建與數(shù)據(jù)倉庫的應(yīng)用。

早期數(shù)據(jù)倉庫構(gòu)建主要指的是把企業(yè)的業(yè)務(wù)數(shù)據(jù)庫如ERP、CRM、SCM等數(shù)據(jù)按照決策分析的要求建模并匯總到數(shù)據(jù)倉庫引擎中，其應(yīng)用以報表為主，目的是支持管理層和業(yè)務(wù)人員決策（中長期策略型決策）。

隨著業(yè)務(wù)和環(huán)境的發(fā)展，這兩方面都在發(fā)生著劇烈變化。

隨著IT技術(shù)走向互聯(lián)網(wǎng)、移動化，數(shù)據(jù)源變得越來越豐富，在原來業(yè)務(wù)數(shù)據(jù)庫的基礎(chǔ)上出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)，比如網(wǎng)站log，IoT設(shè)備數(shù)據(jù)，APP埋點數(shù)據(jù)等，這些數(shù)據(jù)量比以往結(jié)構(gòu)化的數(shù)據(jù)大了幾個量級，對ETL過程、存儲都提出了更高的要求；
互聯(lián)網(wǎng)的在線特性也將業(yè)務(wù)需求推向了實時化，隨時根據(jù)當前客戶行為而調(diào)整策略變得越來越常見，比如大促過程中庫存管理，運營管理等（即既有中遠期策略型，也有短期操作型）；同時公司業(yè)務(wù)互聯(lián)網(wǎng)化之后導(dǎo)致同時服務(wù)的客戶劇增，有些情況人工難以完全處理，這就需要機器自動決策。比如欺詐檢測和用戶審核。

總結(jié)來看，對數(shù)據(jù)倉庫的需求可以抽象成兩方面：實時產(chǎn)生結(jié)果、處理和保存大量異構(gòu)數(shù)據(jù)。

注：這里不討論數(shù)據(jù)湖技術(shù)。

3.數(shù)據(jù)倉庫建設(shè)方法論

1）面向主題

從公司業(yè)務(wù)出發(fā)，是分析的宏觀領(lǐng)域，比如供應(yīng)商主題、商品主題、客戶主題和倉庫主題

2）為多維數(shù)據(jù)分析服務(wù)

數(shù)據(jù)報表；數(shù)據(jù)立方體，上卷、下鉆、切片、旋轉(zhuǎn)等分析功能。

3）反范式數(shù)據(jù)模型

以事實表和維度表組成的星型數(shù)據(jù)模型

注：圖片來自51CTO

4.數(shù)據(jù)倉庫架構(gòu)的演變

數(shù)據(jù)倉庫概念是Inmon于1990年提出并給出了完整的建設(shè)方法。隨著互聯(lián)網(wǎng)時代來臨，數(shù)據(jù)量暴增，開始使用大數(shù)據(jù)工具來替代經(jīng)典數(shù)倉中的傳統(tǒng)工具。此時僅僅是工具的取代，架構(gòu)上并沒有根本的區(qū)別，可以把這個架構(gòu)叫做離線大數(shù)據(jù)架構(gòu)。

后來隨著業(yè)務(wù)實時性要求的不斷提高，人們開始在離線大數(shù)據(jù)架構(gòu)基礎(chǔ)上加了一個加速層，使用流處理技術(shù)直接完成那些實時性要求較高的指標計算，這便是Lambda架構(gòu)。

再后來，實時的業(yè)務(wù)越來越多，事件化的數(shù)據(jù)源也越來越多，實時處理從次要部分變成了主要部分，架構(gòu)也做了相應(yīng)調(diào)整，出現(xiàn)了以實時事件處理為核心的Kappa架構(gòu)。

4.1離線大數(shù)據(jù)架構(gòu)

數(shù)據(jù)源通過離線的方式導(dǎo)入到離線數(shù)倉中。

下游應(yīng)用根據(jù)業(yè)務(wù)需求選擇直接讀取DM或加一層數(shù)據(jù)服務(wù)，比如mysql 或 redis。

數(shù)據(jù)倉庫從模型層面分為三層：

ODS，操作數(shù)據(jù)層，保存原始數(shù)據(jù)；
DWD，數(shù)據(jù)倉庫明細層，根據(jù)主題定義好事實與維度表，保存最細粒度的事實數(shù)據(jù)；
DM，數(shù)據(jù)集市/輕度匯總層，在DWD層的基礎(chǔ)之上根據(jù)不同的業(yè)務(wù)需求做輕度匯總；

典型的數(shù)倉存儲是HDFS/Hive，ETL可以是MapReduce腳本或HiveSQL。

4.2 Lambda架構(gòu)

隨著大數(shù)據(jù)應(yīng)用的發(fā)展，人們逐漸對系統(tǒng)的實時性提出了要求，為了計算一些實時指標，就在原來離線數(shù)倉的基礎(chǔ)上增加了一個實時計算的鏈路，并對數(shù)據(jù)源做流式改造（即把數(shù)據(jù)發(fā)送到消息隊列），實時計算去訂閱消息隊列，直接完成指標增量的計算，推送到下游的數(shù)據(jù)服務(wù)中去，由數(shù)據(jù)服務(wù)層完成離線&實時結(jié)果的合并。

注：流處理計算的指標批處理依然計算，最終以批處理為準，即每次批處理計算后會覆蓋流處理的結(jié)果。（這僅僅是流處理引擎不完善做的折中）

Lambda架構(gòu)問題：

1.同樣的需求需要開發(fā)兩套一樣的代碼
這是Lambda架構(gòu)最大的問題，兩套代碼不僅僅意味著開發(fā)困難（同樣的需求，一個在批處理引擎上實現(xiàn)，一個在流處理引擎上實現(xiàn)，還要分別構(gòu)造數(shù)據(jù)測試保證兩者結(jié)果一致），后期維護更加困難，比如需求變更后需要分別更改兩套代碼，獨立測試結(jié)果，且兩個作業(yè)需要同步上線。
2.資源占用增多：同樣的邏輯計算兩次，整體資源占用會增多（多出實時計算這部分）

4.3 Kappa架構(gòu)

Lambda架構(gòu)雖然滿足了實時的需求，但帶來了更多的開發(fā)與運維工作，其架構(gòu)背景是流處理引擎還不完善，流處理的結(jié)果只作為臨時的、近似的值提供參考。后來隨著Flink等流處理引擎的出現(xiàn)，流處理技術(shù)很成熟了，這時為了解決兩套代碼的問題，LickedIn 的Jay Kreps提出了Kappa架構(gòu)

Kappa架構(gòu)可以認為是Lambda架構(gòu)的簡化版（只要移除lambda架構(gòu)中的批處理部分即可）。

在Kappa架構(gòu)中，需求修改或歷史數(shù)據(jù)重新處理都通過上游重放完成。

Kappa架構(gòu)最大的問題是流式重新處理歷史的吞吐能力會低于批處理，但這個可以通過增加計算資源來彌補。

Kappa架構(gòu)的重新處理過程

重新處理是人們對Kappa架構(gòu)最擔(dān)心的點，但實際上并不復(fù)雜：

1.選擇一個具有重放功能的、能夠保存歷史數(shù)據(jù)并支持多消費者的消息隊列，根據(jù)需求設(shè)置歷史數(shù)據(jù)保存的時長，比如Kafka，可以保存全部歷史數(shù)據(jù)。
2.當某個或某些指標有重新處理的需求時，按照新邏輯寫一個新作業(yè)，然后從上游消息隊列的最開始重新消費，把結(jié)果寫到一個新的下游表中。
3.當新作業(yè)趕上進度后，應(yīng)用切換數(shù)據(jù)源，讀取2中產(chǎn)生的新結(jié)果表。
4.停止老的作業(yè)，刪除老的結(jié)果表。

4.4 Lambda架構(gòu)與Kappa架構(gòu)的對比

在真實的場景中，很多時候并不是完全規(guī)范的Lambda架構(gòu)或Kappa架構(gòu)，可以是兩者的混合，比如大部分實時指標使用Kappa架構(gòu)完成計算，少量關(guān)鍵指標（比如金額相關(guān)）使用Lambda架構(gòu)用批處理重新計算，增加一次校對過程。（1）

Kappa架構(gòu)并不是中間結(jié)果完全不落地，現(xiàn)在很多大數(shù)據(jù)系統(tǒng)都需要支持機器學(xué)習(xí)（離線訓(xùn)練），所以實時中間結(jié)果需要落地對應(yīng)的存儲引擎供機器學(xué)習(xí)使用，另外有時候還需要對明細數(shù)據(jù)查詢，這種場景也需要把實時明細層寫出到對應(yīng)的引擎中。（2）參考后面的案例

另外，隨著數(shù)據(jù)多樣性的發(fā)展，數(shù)據(jù)倉庫這種提前規(guī)定schema的模式顯得越來難以支持靈活的探索&分析需求，這時候便出現(xiàn)了一種數(shù)據(jù)湖技術(shù)，即把原始數(shù)據(jù)全部緩存到某個大數(shù)據(jù)存儲上，后續(xù)分析時再根據(jù)需求去解析原始數(shù)據(jù)。簡單的說，數(shù)據(jù)倉庫模式是schema on write，數(shù)據(jù)湖模式是schema on read。（3）

5.實時數(shù)倉案例

菜鳥倉配實時數(shù)據(jù)倉庫

本案例參考自菜鳥倉配團隊的分享，涉及全局設(shè)計、數(shù)據(jù)模型、數(shù)據(jù)保障等幾個方面。

注：特別感謝緣橋同學(xué)的無私分享。

5.1 整體設(shè)計

整體設(shè)計如右圖，基于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)，數(shù)據(jù)模型采用中間層的設(shè)計理念，建設(shè)倉配實時數(shù)倉；計算引擎，選擇更易用、性能表現(xiàn)更佳的實時計算作為主要的計算引擎；數(shù)據(jù)服務(wù)，選擇天工數(shù)據(jù)服務(wù)中間件，避免直連數(shù)據(jù)庫，且基于天工可以做到主備鏈路靈活配置秒級切換；數(shù)據(jù)應(yīng)用，圍繞大促全鏈路，從活動計劃、活動備貨、活動直播、活動售后、活動復(fù)盤五個維度，建設(shè)倉配大促數(shù)據(jù)體系。

5.2 數(shù)據(jù)模型

不管是從計算成本，還是從易用性，還是從復(fù)用性，還是從一致性……，我們都必須避免煙囪式的開發(fā)模式，而是以中間層的方式建設(shè)倉配實時數(shù)倉。與離線中間層基本一致，我們將實時中間層分為兩層。

第一層DWD公共實時明細層

實時計算訂閱業(yè)務(wù)數(shù)據(jù)消息隊列，然后通過數(shù)據(jù)清洗、多數(shù)據(jù)源join、流式數(shù)據(jù)與離線維度信息等的組合，將一些相同粒度的業(yè)務(wù)系統(tǒng)、維表中的維度屬性全部關(guān)聯(lián)到一起，增加數(shù)據(jù)易用性和復(fù)用性，得到最終的實時明細數(shù)據(jù)。這部分數(shù)據(jù)有兩個分支，一部分直接落地到ADS，供實時明細查詢使用，一部分再發(fā)送到消息隊列中，供下層計算使用；

第二層DWS公共實時匯總層

以數(shù)據(jù)域+業(yè)務(wù)域的理念建設(shè)公共匯總層，與離線數(shù)倉不同的是，這里匯總層分為輕度匯總層和高度匯總層，并同時產(chǎn)出，輕度匯總層寫入ADS，用于前端產(chǎn)品復(fù)雜的olap查詢場景，滿足自助分析和產(chǎn)出報表的需求；高度匯總層寫入Hbase，用于前端比較簡單的kv查詢場景，提升查詢性能，比如實時大屏等；

注：
1.ADS是一款提供OLAP分析服務(wù)的引擎。開源提供類似功能的有，Elastic Search、Kylin、Druid等；
2.案例中選擇把數(shù)據(jù)寫入到Hbase供KV查詢，也可根據(jù)情況選擇其他引擎，比如數(shù)據(jù)量不多，查詢壓力也不大的話，可以用mysql
3.因主題建模與業(yè)務(wù)關(guān)系較大，這里不做描述

5.3 數(shù)據(jù)保障

集團每年都有雙十一等大促，大促期間流量與數(shù)據(jù)量都會暴增。

實時系統(tǒng)要保證實時性，相對離線系統(tǒng)對數(shù)據(jù)量要更敏感，對穩(wěn)定性要求更高。

所以為了應(yīng)對這種場景，還需要在這種場景下做兩種準備：

大促前的系統(tǒng)壓測；
大促中的主備鏈路保障；

6. 實時數(shù)倉與離線數(shù)倉的對比

在看過前面的敘述與菜鳥案例之后，我們看一下實時數(shù)倉與離線數(shù)倉在幾方面的對比：

首先，從架構(gòu)上，實時數(shù)倉與離線數(shù)倉有比較明顯的區(qū)別，實時數(shù)倉以Kappa架構(gòu)為主，而離線數(shù)倉以傳統(tǒng)大數(shù)據(jù)架構(gòu)為主。Lambda架構(gòu)可以認為是兩者的中間態(tài)。

其次，從建設(shè)方法上，實時數(shù)倉和離線數(shù)倉基本還是沿用傳統(tǒng)的數(shù)倉主題建模理論，產(chǎn)出事實寬表。另外實時數(shù)倉中實時流數(shù)據(jù)的join有隱藏時間語義，在建設(shè)中需注意。

最后，從數(shù)據(jù)保障看，實時數(shù)倉因為要保證實時性，所以對數(shù)據(jù)量的變化較為敏感。在大促等場景下需要提前做好壓測和主備保障工作，這是與離線數(shù)據(jù)的一個較為明顯的區(qū)別。

本文作者：付空

原文鏈接

更多技術(shù)干貨敬請關(guān)注云棲社區(qū)知乎機構(gòu)號：阿里云云棲社區(qū) - 知乎

本文為云棲社區(qū)原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的数据查询和业务流分开_数据仓库介绍与实时数仓案例的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：多核处理器_手机处理器性能排行：骁龙86
下一篇： hive 时间转字符串_07697.0.