百分点大数据技术团队:数据治理“PAI”实施方法论
數(shù)據(jù)作為第五大生產(chǎn)要素,已逐漸成為政府和企業(yè)決策的重要手段與依據(jù)。面對數(shù)據(jù)多樣化、數(shù)據(jù)需求個(gè)性化、數(shù)據(jù)應(yīng)用智能化的需求,以及在2B和2G行業(yè)中數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)應(yīng)用難以發(fā)揮價(jià)值、數(shù)據(jù)資產(chǎn)難以沉淀等問題,如何做好數(shù)據(jù)治理工作、提升數(shù)據(jù)治理能力成為了政府和企業(yè)數(shù)字化轉(zhuǎn)型的重中之重。
百分點(diǎn)大數(shù)據(jù)技術(shù)團(tuán)隊(duì)基于多年的數(shù)據(jù)治理項(xiàng)目經(jīng)驗(yàn),總結(jié)了一套做好數(shù)據(jù)治理工作及提升數(shù)據(jù)治理能力的實(shí)施方法論。
近年來,推動(dòng)數(shù)據(jù)治理體系建設(shè)一直是業(yè)界探索的熱點(diǎn),另外,《中共中央、國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》將數(shù)據(jù)作為第五大生產(chǎn)要素提出意義非同一般。但與勞動(dòng)力等生產(chǎn)要素不同的是,數(shù)據(jù)是無形的,且數(shù)據(jù)孤島林立,要想發(fā)揮數(shù)據(jù)價(jià)值,提升數(shù)據(jù)治理能力是必要舉措。
百分點(diǎn)結(jié)合多年政府各個(gè)部門及各類企業(yè)數(shù)據(jù)治理項(xiàng)目經(jīng)驗(yàn),提出數(shù)據(jù)治理項(xiàng)目開展過程中數(shù)據(jù)治理平臺應(yīng)具備4大能力:聚、治、通、用,以及項(xiàng)目實(shí)施總體指導(dǎo)思想:PDCA。
四大能力建設(shè):
聚:數(shù)據(jù)匯聚能力,面對數(shù)據(jù)來源各異,數(shù)據(jù)類型紛繁多樣,數(shù)據(jù)時(shí)效要求不一等各類情況,數(shù)據(jù)治理首先能把各類數(shù)據(jù)接入到平臺中,“進(jìn)的來”是第一步。
治:狹義數(shù)據(jù)治理能力,包括數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)生命周期、主數(shù)據(jù)。核心是保證數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一、借助元數(shù)據(jù)掌握數(shù)據(jù)資產(chǎn)分布情況及影響分析和血緣關(guān)系、數(shù)據(jù)質(zhì)量地持續(xù)提升、數(shù)據(jù)資產(chǎn)的安全可靠、數(shù)據(jù)資產(chǎn)的淘汰銷毀機(jī)制以及核心主數(shù)據(jù)的統(tǒng)一及使用。
通:數(shù)據(jù)拉通整合能力,原始業(yè)務(wù)數(shù)據(jù)分散在各業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)組織是以滿足業(yè)務(wù)流轉(zhuǎn)為前提。后續(xù)數(shù)據(jù)需求是根據(jù)實(shí)際業(yè)務(wù)對象開展而非各業(yè)務(wù)系統(tǒng),所以需要根據(jù)業(yè)務(wù)實(shí)體重新組織數(shù)據(jù)。比如政府單位針對人的綜合分析通常會(huì)涉及:財(cái)產(chǎn)、教育程度、五險(xiǎn)一金、繳稅、家庭成員等,需要以身份證號拉通房管局、交通局、教育局、人社局、稅務(wù)局、衛(wèi)健委等多個(gè)委辦局?jǐn)?shù)據(jù)。數(shù)據(jù)拉通整合能力是后續(xù)滿足多樣化需求分析的基礎(chǔ),是數(shù)據(jù)資產(chǎn)積累沉淀的根基,也是平臺建設(shè)的另一個(gè)重點(diǎn)。
用:數(shù)據(jù)服務(wù)能力,數(shù)據(jù)資產(chǎn)只有真正賦能于前端業(yè)務(wù)才能發(fā)揮實(shí)際效用,所以如何讓業(yè)務(wù)部門快速找到并便利的使用所需數(shù)據(jù)資產(chǎn)是數(shù)據(jù)治理平臺的另一項(xiàng)核心能力。
P:plan,標(biāo)準(zhǔn)、規(guī)劃、流程制定;D:do,產(chǎn)品工具輔助落地;C:check,業(yè)務(wù)技術(shù)雙重檢查保證;A:action,持續(xù)優(yōu)化提升數(shù)據(jù)質(zhì)量及服務(wù)。
結(jié)合數(shù)據(jù)治理項(xiàng)目實(shí)際落地實(shí)施過程以四大能力構(gòu)建、PDCA實(shí)施指導(dǎo)思想提出了“PAI”實(shí)施方法論,即流程化(process-oriented)、自動(dòng)化(automation)、智能化(intelligence)三化論,以逐步遞進(jìn)方式不斷提升數(shù)據(jù)治理能力,為政府和企業(yè)后續(xù)的數(shù)據(jù)賦能業(yè)務(wù)及數(shù)據(jù)催生業(yè)務(wù)創(chuàng)新打下堅(jiān)實(shí)基礎(chǔ)。
流程化將數(shù)據(jù)治理項(xiàng)目執(zhí)行過程進(jìn)行流程化梳理,同時(shí)規(guī)范流程節(jié)點(diǎn)中的標(biāo)準(zhǔn)輸入輸出,并將標(biāo)準(zhǔn)輸入輸出模板化。另外對各流程節(jié)點(diǎn)的重點(diǎn)注意事項(xiàng)進(jìn)行提示。
自動(dòng)化針對流程化之后的相關(guān)節(jié)點(diǎn)及標(biāo)準(zhǔn)輸入輸出進(jìn)行自動(dòng)化開發(fā),減輕人力負(fù)擔(dān),讓大家將精力放在業(yè)務(wù)層面及新技術(shù)拓展上,避免重復(fù)人力工作。如自動(dòng)化數(shù)據(jù)接入及自動(dòng)化腳本開發(fā)等。
智能化針對新項(xiàng)目或是新領(lǐng)域結(jié)合歷史項(xiàng)目經(jīng)驗(yàn)及沉淀給出推薦內(nèi)容,比如模型創(chuàng)建、數(shù)據(jù)質(zhì)量稽核規(guī)則等。
一、數(shù)據(jù)治理流程化
因數(shù)據(jù)治理類項(xiàng)目通常采用瀑布式開發(fā)模式,核心流程包含:需求、設(shè)計(jì)、開發(fā)、測試、上線等階段,流程化是將交付流程步驟進(jìn)行詳細(xì)分解并對項(xiàng)目組及客戶工作內(nèi)容進(jìn)行提煉及規(guī)范,明確每個(gè)流程的標(biāo)準(zhǔn)輸入、輸出內(nèi)容。流程節(jié)點(diǎn)、節(jié)點(diǎn)產(chǎn)出物及數(shù)據(jù)治理平臺四大能力對應(yīng)關(guān)系如下所示:
其中因需求、概要設(shè)計(jì)和詳細(xì)設(shè)計(jì)為執(zhí)行過程中的核心流程節(jié)點(diǎn),將針對此三部分進(jìn)行詳細(xì)講解。
1. 需求調(diào)研
1.1 需求調(diào)研流程
數(shù)據(jù)類項(xiàng)目總體調(diào)研流程如下:
數(shù)據(jù)調(diào)研是整個(gè)項(xiàng)目的基礎(chǔ),既要詳細(xì)掌握現(xiàn)有業(yè)務(wù)現(xiàn)狀及數(shù)據(jù)情況又要準(zhǔn)確獲取客戶需求,明確項(xiàng)目建設(shè)目標(biāo)。如上圖所示總體分成三個(gè)大的時(shí)間節(jié)點(diǎn):包括需求調(diào)研準(zhǔn)備、需求調(diào)研實(shí)施及需求調(diào)研后期的梳理確認(rèn)。
需求調(diào)研準(zhǔn)備包括:調(diào)研計(jì)劃確定、調(diào)研前準(zhǔn)備,具備條件的盡量開一次調(diào)研需求見面會(huì)(項(xiàng)目啟動(dòng)會(huì)介紹過的可以不需要再組織)。其中調(diào)研前準(zhǔn)備需針對客戶的組織架構(gòu)及業(yè)務(wù)情況進(jìn)行充分的了解,以便在后續(xù)的調(diào)研實(shí)施階段有的放矢,調(diào)研內(nèi)容更為詳實(shí),客戶需求把控更為準(zhǔn)確。
調(diào)研實(shí)施階段一般組織兩輪調(diào)研,第一論主要是了解業(yè)務(wù)運(yùn)轉(zhuǎn)現(xiàn)狀、對接業(yè)務(wù)數(shù)據(jù)以及客戶需求。第二輪針對具體的業(yè)務(wù)和數(shù)據(jù)的細(xì)節(jié)問題進(jìn)行確認(rèn),及分析后的客戶需求與客戶確認(rèn)。對于部分系統(tǒng)的細(xì)節(jié)問題以線下方式對接,不再做第三輪整體調(diào)研。
需求調(diào)研后期主要是針對客戶需求及客戶業(yè)務(wù)及數(shù)據(jù)現(xiàn)狀進(jìn)行內(nèi)外部評審并確認(rèn)簽字,以《需求規(guī)格說明書》形式明確本期項(xiàng)目建設(shè)目錄。
1.2 需求調(diào)研工作事項(xiàng)
上表描述了需求調(diào)研過程關(guān)鍵節(jié)點(diǎn)的客戶方及項(xiàng)目組工作內(nèi)容內(nèi)容及輸入輸出,并說明了需求調(diào)研階段的總體原則、調(diào)研方式及相關(guān)要求。
1.3 需求調(diào)研注意事項(xiàng)
(1)需求收集
關(guān)鍵干系人需求
真正用戶是誰及其需求
需求獲取前置問題:客戶管什么,重點(diǎn)關(guān)注什么,目前如何管理,欠缺什么,重復(fù)勞動(dòng)有哪些?
(2)需求驗(yàn)證
3W驗(yàn)證,誰來用,什么場景下用,解決哪些問題?
原型草圖
(3)需求管理
核心需求(需求需融入業(yè)務(wù)流程并發(fā)揮實(shí)際效用)
識別是否行業(yè)共性(有余力則做沒有則算,項(xiàng)目管理角度不需要,行業(yè)角度需要)
(4)需求確認(rèn)
形成文字版需求規(guī)格說明書
務(wù)必簽字確認(rèn)(后續(xù)可以更改,大變更需記錄)
2. 概要設(shè)計(jì)
數(shù)據(jù)治理項(xiàng)目概要設(shè)計(jì)主要涵蓋網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)流架構(gòu)、標(biāo)準(zhǔn)庫建設(shè)、數(shù)據(jù)倉庫建設(shè)四部分內(nèi)容。總體目標(biāo)是明確數(shù)據(jù)如何進(jìn)出數(shù)據(jù)治理平臺(明確網(wǎng)絡(luò)情況)、數(shù)據(jù)在平臺內(nèi)部如何組織及流動(dòng)(數(shù)據(jù)流架構(gòu)及數(shù)據(jù)倉庫模型)以及數(shù)據(jù)在平臺內(nèi)部應(yīng)遵循哪些標(biāo)準(zhǔn)及規(guī)范(標(biāo)準(zhǔn)庫)。針對每部分具體工作事項(xiàng)及輸入、輸出如下所示:
2.1 網(wǎng)絡(luò)架構(gòu)示意圖
網(wǎng)絡(luò)架構(gòu)要明確硬件部署方案、待接入系統(tǒng)網(wǎng)絡(luò)情況及后續(xù)使用人群及訪問系統(tǒng)方式,以便滿足數(shù)據(jù)接入及數(shù)據(jù)服務(wù)需求。
2.2 數(shù)據(jù)流示意圖
數(shù)據(jù)流架構(gòu)要明確各類數(shù)據(jù)的處理方式及流向,以便確認(rèn)后續(xù)數(shù)據(jù)加工及存儲方式。
2.3 數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容示意圖
標(biāo)準(zhǔn)庫建設(shè)要明確平臺所遵循的各類標(biāo)準(zhǔn)及規(guī)范,以保證平臺建設(shè)過程的統(tǒng)一規(guī)范,為后續(xù)業(yè)務(wù)賦能打下堅(jiān)實(shí)基礎(chǔ)。
2.4 數(shù)據(jù)倉庫主題域及核心實(shí)體示意圖
數(shù)據(jù)倉庫建設(shè)要明確主題域及關(guān)鍵實(shí)體,明確后續(xù)數(shù)據(jù)拉通整合的實(shí)體對象,以更好地支撐繁雜多變的數(shù)據(jù)需求。
3. 詳細(xì)設(shè)計(jì)
詳細(xì)設(shè)計(jì)針對項(xiàng)目實(shí)際落地的工作模塊分別進(jìn)行設(shè)計(jì),明確每部分實(shí)現(xiàn)的設(shè)計(jì),具體模塊、工作內(nèi)容、輸入、輸出如下所示:
二、數(shù)據(jù)治理自動(dòng)化
在將數(shù)據(jù)治理項(xiàng)目流程化以后整個(gè)工作內(nèi)容及具體工作產(chǎn)出已經(jīng)比較明確了,但是會(huì)發(fā)現(xiàn)流程中會(huì)涉及到大量的開發(fā)工作,同時(shí)發(fā)現(xiàn)很多工作具有較高的重復(fù)性或相似性,開發(fā)使用的流程及技術(shù)都是一樣的只是配置不同,因此針對流程化以后各節(jié)點(diǎn)的自動(dòng)化開發(fā)應(yīng)運(yùn)而生。通過配置任務(wù)的個(gè)性化部分,然后統(tǒng)一生成對應(yīng)的開發(fā)任務(wù)或腳本即可完成開發(fā)。
自動(dòng)化處理一般有兩種實(shí)現(xiàn)路徑,其一是采購成熟數(shù)據(jù)治理軟件,其二是自研開發(fā)相應(yīng)工具。其中數(shù)據(jù)治理過程中可實(shí)現(xiàn)自動(dòng)化處理的流程節(jié)點(diǎn)如“工序”標(biāo)藍(lán)色部分:
注:對于需求調(diào)研、模型設(shè)計(jì)等流程節(jié)點(diǎn)因?yàn)樯婕暗骄€下的訪談、業(yè)務(wù)的理解更多的是與人的溝通交流,進(jìn)而獲取相應(yīng)的業(yè)務(wù)知識及需求,并非單純的計(jì)算機(jī)語言同時(shí)“因人而異”的情況也比較常見,所以此部分相關(guān)工作暫時(shí)還以人工為主。
因數(shù)據(jù)接入、腳本開發(fā)及數(shù)據(jù)質(zhì)量稽核在日常工作中占用時(shí)間較長,下面將詳細(xì)講解此三部分內(nèi)容。
1. 批量數(shù)據(jù)接入
數(shù)據(jù)接入是所有數(shù)據(jù)治理平臺的第一步,批量數(shù)據(jù)接入占數(shù)據(jù)接入工作量的70-90%之間。自動(dòng)化處理即將任務(wù)個(gè)性化部分進(jìn)行抽象化形成配置項(xiàng),通過配置任務(wù)的抽象化配置項(xiàng),進(jìn)而生成對應(yīng)的任務(wù)。批量數(shù)據(jù)接入抽象以后的配置項(xiàng)如下:
源系統(tǒng):源系統(tǒng)數(shù)據(jù)庫類型
源庫名:源系統(tǒng)數(shù)據(jù)庫庫名稱(數(shù)據(jù)庫的鏈接方式在其他地方統(tǒng)一管理)
源表名:源系統(tǒng)數(shù)據(jù)庫庫表名稱
目標(biāo)系統(tǒng):目標(biāo)數(shù)據(jù)庫類型
目標(biāo)庫:目標(biāo)數(shù)據(jù)庫庫名稱
目標(biāo)表:目標(biāo)數(shù)據(jù)庫庫表名
增/全量:1表示全量接,0表示增量接
示例配置如上,不管使用sqoop、datax等方式都可以批量生成對應(yīng)命令或配置文件,實(shí)現(xiàn)批量生成接入作業(yè),實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)接入工作,數(shù)據(jù)接入效率提升75%以上,后續(xù)只需驗(yàn)證數(shù)據(jù)接入正確性即可。
2. 腳本開發(fā)
資源庫、主題庫的加工腳本占整體開發(fā)工作工作的50%-80%,同時(shí)經(jīng)過對此部分?jǐn)?shù)據(jù)加工方式進(jìn)行特定分析后,數(shù)據(jù)常用的處理方式如下一般有以下幾種類型:
將以上加工方式進(jìn)行總結(jié)后可沉淀出以下幾種數(shù)據(jù)處理方式:
結(jié)合Mapping文檔選定以上數(shù)據(jù)處理方式的一種即可自動(dòng)生成資源庫或主題庫對應(yīng)腳本,開發(fā)效率得到大幅度提升,整體效率提升60%以上(模型及Mapping設(shè)計(jì)尚需人工處理)。
3. DQC
數(shù)據(jù)質(zhì)量是PDCA實(shí)施總體指導(dǎo)思想的關(guān)鍵一步,是發(fā)現(xiàn)數(shù)據(jù)問題以及檢查數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范落地的必須環(huán)節(jié)。針對具體的規(guī)則都可以通過產(chǎn)品和自助開發(fā)來實(shí)現(xiàn),只需進(jìn)行相應(yīng)配置即可實(shí)現(xiàn)自動(dòng)化檢查,具體檢查事項(xiàng)如下:
三、數(shù)據(jù)治理智能化
經(jīng)過自動(dòng)化階段以后數(shù)據(jù)治理流程中數(shù)據(jù)倉庫模型設(shè)計(jì)、Mapping映射等階段依舊有非常多人工處理工作,這些工作大部分跟業(yè)務(wù)領(lǐng)域知識及實(shí)際數(shù)據(jù)情況強(qiáng)相關(guān),依賴專業(yè)的業(yè)務(wù)知識和行業(yè)經(jīng)驗(yàn)才可進(jìn)行合理地規(guī)劃和設(shè)計(jì)。如何快速精通行業(yè)知識和提升行業(yè)經(jīng)驗(yàn)是數(shù)據(jù)治理過程中新的“攔路虎”。如何更好地沉淀和積累行業(yè)知識,自動(dòng)地提供設(shè)計(jì)和處理的建議是數(shù)據(jù)治理“深水區(qū)”面臨的一個(gè)新的挑戰(zhàn)。數(shù)據(jù)治理智能化將為我們的數(shù)據(jù)治理工作開辟一個(gè) “新天地”。
在整個(gè)數(shù)據(jù)治理流程中智能化可以發(fā)揮作用的的節(jié)點(diǎn)如“工序”標(biāo)紅色部分:
實(shí)現(xiàn)智能化的第一步是如何積累業(yè)務(wù)知識及行業(yè)經(jīng)驗(yàn),形成知識庫。數(shù)據(jù)治理知識庫應(yīng)包括:標(biāo)準(zhǔn)文件、模型(數(shù)據(jù)元)、DQC規(guī)則及數(shù)據(jù)清洗方案、腳本數(shù)據(jù)處理算法、指標(biāo)庫、業(yè)務(wù)知識問答庫等,具體涵蓋內(nèi)容及總體流程如下圖所示:
1. ?標(biāo)準(zhǔn)文件
在2B和2G行業(yè)尤其是2G行業(yè),國家、行業(yè)、地方都發(fā)布了大量的標(biāo)準(zhǔn)文件,在業(yè)務(wù)和技術(shù)層面都進(jìn)行了相關(guān)約束,并且指導(dǎo)新建業(yè)務(wù)系統(tǒng)的開發(fā)。標(biāo)準(zhǔn)文件知識庫涵蓋幾個(gè)方面:a.國標(biāo)、行標(biāo)、地標(biāo)等標(biāo)準(zhǔn)的在線查看 b.相關(guān)標(biāo)準(zhǔn)的在線全文檢索 c.標(biāo)準(zhǔn)具體內(nèi)容的結(jié)構(gòu)化解析。
2. ?數(shù)據(jù)元(模型)
對于不同行業(yè)來說技術(shù)標(biāo)準(zhǔn)中的命名以及模型是目前大家都比較關(guān)注的,也是在做數(shù)據(jù)中臺類項(xiàng)目以及數(shù)據(jù)治理項(xiàng)目比較耗時(shí)的地方,在金融領(lǐng)域已經(jīng)比較穩(wěn)定的主題模型在其他行業(yè)尚未形成統(tǒng)一,所以對于做2B和2G市場的企業(yè)如何能沉淀出特定行業(yè)的數(shù)據(jù)元標(biāo)準(zhǔn)甚至是主題模型,對于行業(yè)理解及后續(xù)同類項(xiàng)目交付就至關(guān)重要。具體包括:實(shí)體分類、實(shí)體名稱名稱、中文名稱、英文名稱、數(shù)據(jù)類型、引用標(biāo)準(zhǔn)等。
3. ?DQC(數(shù)據(jù)質(zhì)量稽核)&數(shù)據(jù)清洗方案
數(shù)據(jù)治理的關(guān)鍵點(diǎn)是提升數(shù)據(jù)治理,所以不同行業(yè)及各個(gè)行業(yè)通用的數(shù)據(jù)質(zhì)量清洗方案及數(shù)據(jù)質(zhì)量稽核的沉淀就尤為重要,比如通用規(guī)則校驗(yàn)身份證號18位校驗(yàn)(15轉(zhuǎn)18)、手機(jī)號為11位(如有國際電話需加國家代碼)、日期格式、郵箱格式等。
4. ?腳本開發(fā)
在數(shù)據(jù)類項(xiàng)目中,數(shù)據(jù)mapping確認(rèn)以后就是具體的開發(fā)了,由于數(shù)據(jù)處理方式的共性,可以高度提煉成特定類型的數(shù)據(jù)處理,比如交易流水一般采用追加的方式,每日新增數(shù)據(jù)append進(jìn)來即可。狀態(tài)類的歷史拉鏈表形式等。此過程中的步驟都可以通過自動(dòng)化程序來實(shí)現(xiàn),同時(shí)借助于上面沉淀的具體標(biāo)準(zhǔn)內(nèi)容,進(jìn)一步規(guī)范化腳本開發(fā)。
5. ?指標(biāo)庫
對于一個(gè)行業(yè)的理解一定程度上體現(xiàn)在行業(yè)指標(biāo)體系的建立,行業(yè)常用指標(biāo)是否覆蓋全,指標(biāo)加工規(guī)則是否有歧義是非常重要的兩個(gè)考核項(xiàng),行業(yè)指標(biāo)庫的建立對于業(yè)務(wù)知識的積累至關(guān)重要。
6. ?業(yè)務(wù)知識問答庫
行業(yè)知識積累的最直觀體現(xiàn)是業(yè)務(wù)知識問答庫的建立,各類業(yè)務(wù)知識都可以逐步沉淀到問答庫中,并以問答等多種交互方式更便利的服務(wù)于各類使用人員。比如生態(tài)環(huán)境領(lǐng)域AQI的計(jì)算規(guī)則,空氣常見污染因子、各類污染指標(biāo)的排放限值等,都可以以問答對形式進(jìn)行沉淀。
基于以上知識的不斷沉淀積累,在數(shù)據(jù)治理開展過程中即可進(jìn)行智能化推薦。如上圖所示,在做實(shí)體及屬性認(rèn)定時(shí)結(jié)合NLP技術(shù)和知識庫規(guī)則即可進(jìn)行相似度認(rèn)定推薦。
并且隨著行業(yè)知識的不斷積累和完善后期可以直接推薦行業(yè)主題模型及主數(shù)據(jù)模型,以及針對實(shí)體及屬性的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量檢查規(guī)則的推薦。
總結(jié)
流程化是數(shù)據(jù)治理工作開展第一步,是自動(dòng)化和智能化的基礎(chǔ),將數(shù)據(jù)治理各節(jié)點(diǎn)開展過程中用到的內(nèi)容進(jìn)行梳理并規(guī)范,包括:業(yè)務(wù)流程圖、網(wǎng)絡(luò)架構(gòu)圖、業(yè)務(wù)系統(tǒng)臺賬等,行業(yè)知識梳理完善以后形成行業(yè)版知識(抽離通用版),如標(biāo)準(zhǔn)文件梳理:1.代碼表整理,2.數(shù)據(jù)元標(biāo)準(zhǔn)整理(數(shù)據(jù)倉庫行業(yè)模型對應(yīng)標(biāo)準(zhǔn)梳理)。
自動(dòng)化是將流程化標(biāo)準(zhǔn)后的工作進(jìn)行自動(dòng)化開發(fā),涉及倉庫模型設(shè)計(jì)、標(biāo)準(zhǔn)化、腳本開發(fā)、DQC、指標(biāo)體系自動(dòng)化構(gòu)建,包括:自動(dòng)化程序生成和自動(dòng)化檢查。自動(dòng)程序生成一是解放生產(chǎn)力,提高效率而是提升開發(fā)的規(guī)范化。自動(dòng)化檢查包括:1.發(fā)現(xiàn)數(shù)據(jù)問題,出具質(zhì)量報(bào)告(唯一性、空值等通用問題),2.行業(yè)知識檢查(行業(yè)版內(nèi)置,不同行業(yè)關(guān)注的重要數(shù)據(jù)問題,并且會(huì)不斷完善知識庫)。
智能化是在流程化、自動(dòng)化基礎(chǔ)之上針對數(shù)據(jù)拉通整合、主題模型、數(shù)據(jù)加工檢查給出智能化建議,減少人工分析的工作。
總體思路先解決項(xiàng)目上標(biāo)準(zhǔn)化執(zhí)行問題,然后提升建設(shè)效率及處理規(guī)范化問題(自動(dòng)化處理),最后基于業(yè)務(wù)知識的沉淀最終實(shí)現(xiàn)全流程智能化構(gòu)建。
總結(jié)
以上是生活随笔為你收集整理的百分点大数据技术团队:数据治理“PAI”实施方法论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为了让AI不断打怪升级,DeepMind
- 下一篇: 百分点大数据技术团队:乘风破浪 海外数据