為了解決多數據源導致的口徑不一致、數據無(wú)關(guān)聯(lián)、數據質(zhì)量差、缺少歷史數據、開(kāi)發(fā)效率低等問(wèn)題,企業(yè)需要構建企業(yè)級數據倉庫,對數據進(jìn)行規整和高效利用。除此以外,由于直連業(yè)務(wù)系統支撐多方報表導致讀寫(xiě)交叉性能降低,影響正常業(yè)務(wù)系統使用的問(wèn)題也可解決。
構建企業(yè)級數據倉庫的步驟分為調研、數倉設計、數倉實(shí)施和測試上線(xiàn)四個(gè)主要環(huán)節。
(資料圖片僅供參考)
調研前期,需要明確本次項目在此階段成功的要素,其次是劃分責任矩陣,收集相關(guān)資料并制定合適的調研策略。與用戶(hù)需求相關(guān)的信息應該足夠的詳細。最終要交付給最終用戶(hù)項目計劃及需求說(shuō)明,需要的情況下需要制定災備計劃,以便數據倉庫可以從事故中恢復。
調研責任矩陣
調研執行分為四步驟:
第一步對本次項目的目標,整體平臺的范圍和當前IT的技術(shù)架構進(jìn)行調研與整理;第二步針對本期項目涉及業(yè)務(wù)部門(mén)進(jìn)行單獨訪(fǎng)談,明確指標,確認口徑,梳理前端樣式與功能并確定相應的數據標準;第三步可根據上一輪調研結果所設計的藍圖進(jìn)行確認和修改并在數據側對底層數據進(jìn)行探源;最后將調研結果與方案藍圖進(jìn)行最終的多方確認并審核簽字。這一階段的交付物為系統藍圖框架與當前數據基礎和質(zhì)量情況表等,具體的執行過(guò)程見(jiàn)下圖:
指標確認框架
數倉構建的核心工作是分層及建模,分層架構設計是為應用數據資源采集、存儲、處理和交換提供建設性依據,而數據模型將決定數據倉庫系統的增長(cháng)性和性能,數倉一般分為 ODS(貼源層)層、DW 層(數據倉儲層)、DM 層(數據集市層)三層架構,依據企業(yè)實(shí)際情況會(huì )有所調整,而數倉模型大多采用維度建模和范式建模。
數據分層:
每一個(gè)數據層都有它的作用域,在使用表的時(shí)候能更方便地定位和理解,因此需要針對數據進(jìn)行分層建設,且數據分層也利于數據血緣追蹤、屏蔽原始數據的異常,通過(guò)開(kāi)發(fā)一些中間層,還可以起到減少重復開(kāi)發(fā)的作用。
數倉通用技術(shù)框架
數倉建模的流程:
數倉模型的設計,按照概念模型(主題域模型)——邏輯模型——物理模型的流程進(jìn)行,邏輯模型和物理模型通常采用維度建模的辦法,以星型和雪花型模型來(lái)組織數據,維度建模的兩個(gè)基本元素是事實(shí)表和維度表。而維度建模也分為確定業(yè)務(wù)主題、定義粒度、確定維度和確認事實(shí)表四個(gè)步驟。該階段的交付物為針對數據源的概念模型、邏輯模型和物理模型。
數倉建模一般流程
DWD層維度建模步驟
ETL過(guò)程常常需要最長(cháng)的項目時(shí)長(cháng),可能會(huì )占用數倉開(kāi)發(fā)的50%及以上,因為獲取源數據、理解業(yè)務(wù)規則、邏輯和物理數據模型需要花費大量時(shí)間。ETL 通過(guò)從源系統數據庫實(shí)時(shí)同步數據至數據倉庫貼源層,基礎層、通用層、應用層基于貼源層的增量數據以實(shí)時(shí)指標加工的規則進(jìn)行定時(shí)(T+1 天)加工處理。
ETL過(guò)程
測試上線(xiàn)
測試上線(xiàn)的主要目的是為了測試當前數倉開(kāi)發(fā)完畢后數據是否準確,數據相應的速度是否及時(shí),包括 ETL 任務(wù)的各環(huán)節是否出現異常等,測試完畢通過(guò)業(yè)務(wù)確認后即可上線(xiàn)。
數據規范
數倉建設的規范是為了后續開(kāi)發(fā)人員可以遵從規范,培養良好的習慣,也可以提升數倉開(kāi)發(fā)的可維護性,便于用戶(hù)的溝通及交流。數據規范的內容包括數倉設計規范、命名規范、ETL 規范、報表規范等,數據規范建設為后續的數據治理及數據資產(chǎn)的管理建立了良好的基礎。
數倉規范文檔
標簽: