安信证券王环:安信证券数据中台建设历程
?
?2020 年 10 月 13 日,在以“數字化 正當潮”為主題的「神策 2020 數據驅動用戶大會」現場,安信證券信息技術中心數據平臺團隊負責人王環發表了《安信證券數據中臺建設歷程》的主題演講。(文末附 PPT 下載地址)
本文根據其現場演講整理所得,主要內容如下:
數據中臺一詞現階段很熱,金融行業、互聯網行業、制造行業等等都在討論數據中臺的建設,但數據中臺到底是什么,大家對此是沒有共識的。我相信,在未來 2-3 年,關于數據中臺的討論越來越少、行動越來越多的時候,數據中臺的共識才會形成。
數據中臺建設背景
1.我們為什么要建設數據中臺?
從業務角度看,數據中臺在發展過程中,面臨著以下挑戰:
第一,煙囪建設。雖然券商和銀行的體量差距較大,但日常運營系統規模卻相差無幾,從安信證券來看,我們現有系統大概 200 多套,功能俱全。但從數據角度看,缺少共享數據模型和規范,包括指標、口徑等,數據重復存儲,導致資源浪費。
第二,數據孤島。這個問題和煙囪建設密切相關,因為數據分散在各個系統內,無法有效整合打通,數據割裂嚴重,很難做統一的分析與統計,難以發揮全域數據的價值。
第三,需求響應慢。為滿足業務場景需求,需要從多個系統里進行數據采集,再做復雜的轉換加工,缺乏底層工具和平臺方面的支撐,疲于應付臨時性提數分析需求,無暇顧及平臺級建設和數據治理,惡性循環。
第四,缺乏沉淀積累。大數據開源組件眾多,更新迭代快,安裝部署維護使用的技術門檻高,證券場景復雜,無法做到技術、業務、人才的積累。
2.從數據技術架構的演變歷程來看,數據的發展有著清晰的脈絡。
關系數據庫建立初始僅是底層數據庫存儲計算最基礎的一個部件,不管是數據分析還是報表功能,都是作為業務系統的附屬功能或者一部分而存在;九十年代數據倉庫概念提出之后,業務系統與管理系統逐漸分離,并陸續出現了專門為 OLAP 場景打造的專用數據庫產品。
自 2005 年,互聯網海量數據處理加工引發技術革命,以 Hadoop 開源生態為基礎的大數據技術棧興起,數據湖成為數據存儲加工的主要方式;直至近兩年,數據逐漸從業務過程的“副產品”轉變為“本身即業務,本身即服務”, 厚中臺、薄前端的理念才開始被業界認可。?
3.數據中臺是將業務系統的數據存儲和計算能力抽離,由單獨的數據處理平臺提供存儲和計算能力,抽象業務共性需求,提供共享復用的數據服務。
?在我的理解中,數據中臺包括 4 個部分的內容:
第一,方法論。涉及大中臺、小前臺、業務數據化、數據業務化等一些概念,也包括現在常用的建模的理論等。
第二,組織。建設數據中臺需要有專業的數據團隊,若單純依附于業務團隊是不靠譜的,如果一個企業沒有專業的數據中臺的團隊,那么這個數據中臺一定是建不成的。
第三,工具鏈。如果只講方法論是沒有辦法落地的,因此,所有的方法論都需要有對應的工具平臺做支撐推動其落地,這里面包括最基礎的底層大數據平臺,包括任務調度工具、數據服務、自助查詢分析工具等。
第四,運營。也就是數據的運營,偏向于數據治理、從源頭做全生命周期的數據治理。
數據中臺發展歷史
安信證券是 2006 年 3 家券商合并組建的,相對于老品牌的證券公司歷史還是比較短的。在這 14 年間,經歷了數據中心建設規劃到建設啟動,到數據倉庫的建成、升級擴容,再到大數據平臺、數據中臺的建設,我們見證也被見證著數據平臺在安信證券的發展。??在 2018 年以前,我們的系統架構還較為簡單,采集工具包括商用的、開源的等,每個項目自行做技術選型,用各自的工具從業務系統采集數據,然后存儲在我們的大數據平臺、數倉或資訊類的數據庫。
數據中臺建設內容
1.在安信證券整個數據中臺的建設過程中,遵循著以下六大基本原則:
第一,業務數據化。數字化這個問題相對比較復雜,我們很多時候連信息化的過程都還沒有完成,線下業務很難記錄到線上系統中,因此,要匯聚全域、全部業務過程和結果數據,統一存儲,建設企業級數據倉庫。
第二,數據標準化。通過規范化的加工處理,統一數據標準,完成全流程數據治理。
第三,數據可視化。在建設系統的過程中,我們希望能夠把數據采集、開發、探索、分析、查詢全流程可視化,降低數據開發使用門檻,不僅可以支持數據團隊和 IT 團隊使用,還能直接賦能業務團隊。
第四,數據資產化。這里我們的主要工作是規范完善元數據信息,提供數據地圖、數據目錄等,幫助各部門高效便捷獲取數據信息,使得數據可見、可懂、可用。
第五,數據服務化。數據怎樣變成服務?怎樣降低數據使用成本?這就要求我們能夠提供統一標準化數據服務 API。
第六,數據業務化。數據作為產品和數據服務的一部分,提升客戶體驗和業務價值是重要內容。
2.從建設維度上來看,安信證券主要從技術體系、數據體系、數據治理與運營體系、數據應用四方面入手。
?目前,安信證券的系統架構在 2018 年版本的基礎之上做了具體組件的替換和補充,對內外部數據源的同步采集做了統一規整:通過自研的批量同步工具(類似阿里的 DataX),輕松對接各類型數據源,實現可插拔的適配;通過 AR、OGG 等商業化工具做實時同步;通過神策數據埋點功能進行 APP 行為數據的采集;通過 Flume 進行服務端日志采集。以上數據在采集之后統一匯入到 CDH 集群里面,在此基礎之上,安信自研了任務調度系統,包括所有采集和計算的任務的調度、任務的依賴等。
在數據平臺端,安信證券將其分為三類,分別是:數據服務平臺、AI 服務平臺、數據資產平臺。??
關于數據倉庫模型,安信在原來數倉模型基礎之上做了重構與標準化分層,參考證券行業模型做了拆解和增補,以此來適配安信證券的業務發展。
3.安信證券的數據治理和數據運營。
在數據治理上,安信證券針對專項任務和日常事件(包括用戶和業務的問題反饋)對數據質量做系統性地梳理和排查,也會結合公司監管和戰略層面的一些重大任務來推動,通過這兩個抓手推動數據質量的提升和標準化。整體上來說,數據治理要從源頭做起,然后再滲透到全生命周期。
另外,傳統證券公司的數據團隊更多承擔著經營分析、統計等脫離實際業務流程的、偏管理性質的工作,因此在企業內部培養數據文化,強化公司、部門、員工的數據意識,利用數據做決策、運營,才能保證數據治理和運營達到預期效果。
在此過程中,安信重視數據團隊對業務系統建設的參與度,抽象共性場景提煉數據服務,支撐業務部門對數據的需求,以實現數據業務化的目標。?
4.通過實時資產、投研云、用戶畫像三個實際應用場景介紹安信證券的數據平臺落地實踐:
第一個,實時資產,它重度依賴大數據平臺能力,特別是大數據的處理能力和流計算模式,是 APP 上用戶重度依賴的功能,DAU 可達數千萬。
第二個,投研云平臺,最初建立是基于量化部門的需求,他們在用單體服務器做研發時面臨著數據和算力的挑戰,基于這兩個痛點,安信證券通過 Spark 改寫量化策略,在大數據平臺做運行與訓練,并逐漸探索深度學習的模型,以此提升部門和企業的研發效率。
第三個,用戶畫像,它完全構建在大數據平臺之上,對用戶的基本特征、資產收益、投資能力、投資風格等進行體系化畫像,是在應用端所做的展示。
現階段,大數據平臺特別是 Hadoop 這個生態體系已經完善和成熟;在未來,其基礎設施會逐漸云原生化,實時數倉和流批融合驅動業務時效性增強,數據和智能漸趨融合,數據治理等朝著更加智能化的方向發展。
?安信證券會持續關注數字化趨勢,積極嘗試,驅動業務增長!?
總結
以上是生活随笔為你收集整理的安信证券王环:安信证券数据中台建设历程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神策数据荣登 2020 IDC 中国 F
- 下一篇: 我在神策做研发 | 与客户难题“对抗”的