【SDCC 2016·杭州站】9月22日大数据实战专场精彩呈现
http://geek.csdn.net/news/detail/103266
【SDCC 現場報道】2016年9月22日-23日,由CSDN重磅打造的大數據核心技術與實戰峰會、互聯網應用架構實戰峰會在杭州隆重舉行。這兩場峰會大牛講師來自唯品會、小米、蘑菇街、餓了么、有贊、游族、echo、In、萬達、百度、蘇寧、螞蟻金服、京東、網易云、 1藥網、 騰訊、美團等知名互聯網公司,共同探討海量數據下的應用監控系統建設、異常檢測的算法和實現、大數據基礎架構實踐、敏捷型數據平臺的構建及應用、音頻分析的機器學習算法應用等內容,以及高可用/高并發/高性能系統架構、電商架構、分布式架構等話題與技術。
在第一天的大數據核心技術與實戰峰會上,由來自唯品會、小米、蘑菇街、餓了么、有贊、游族、echo、In、萬達的資深專家分享了各自在大數據領域豐富的實戰經驗。
上午9:00,大數據核心技術與實戰峰會正式開始。首先,由本次會議的獨家合作伙伴UCloud的杭州分公司架構部負責人林超發表致辭,他介紹了大數據市場火熱的發展前景,并預祝本次大會圓滿成功。
UCloud杭州分公司架構部負責人 林超隨后,本場峰會主持人七牛云技術總監陳超對本次會議主題及內容專家做了介紹,在他的引導下,與會者一同簡單回顧了SDCC往屆大會及峰會的精彩歷程,SDCC成都站之行的火爆讓現場觀眾對本次大會的順利展開更是充滿期待。
七牛云技術總監 陳超(左)唯品會平臺架構部高級架構師 姚捷:大型互聯網公司海量數據下的應用監控系統建設
唯品會平臺架構部高級架構師姚捷在本次架構峰會上帶來的是《大型互聯網公司海量數據下的應用監控系統建設》主題分享,他結合唯品會面對支撐海量數據和新業務的挑戰的實踐,探索大型互聯網公司海量數據下的應用監控系統建設之道。主要從大型互聯網公司應用監控系統的幾大組成部分、應用監控系統的架構實踐、如何應對海量的數據、如何實現治理、如何實現自監控這五個角度展開,分享了唯品會在經歷了Logview之痛后,轉而尋求新方向,獨立研發應用監控系統的過程中,積累的豐富經驗以及當中踩過的一些坑。
首先,姚捷闡述了在選擇自建平臺的過程中所考慮的因素:
- 系統復雜
- 海量數據
- 自建服務化體系監控
- 高度可治理
- 快速接入/升級便捷
- 靈活的告警策略/高效告警
- 與公司體系無縫對接
此外,他還分析了完整的全鏈路監控系統
- 數據埋點/采集
- 指標計算
- 指標存儲/查詢/展現
- 調用鏈存儲/查詢/展現
- 告警/問題定位
- 自監控
- 治理
小米商業產品部技術總監 宋強:小米廣告大數據與算法實踐
小米商業產品部技術總監宋強分享了《小米廣告大數據與算法實踐》的主題演講,主要從小米大數據和小米廣告平臺、小米廣告大數據應用實踐,以及經驗總結這三個方面進行分享,分別介紹大數據在小米廣告平臺的各種實踐,包括收入提升、廣告主優化、用戶體驗優化等。
小米商業產品部技術總監 宋強(右)首先,他在第一個部分講解了小米廣告平臺的架構:
在演講最后,宋強結合前面的實踐和踩坑分享,做了一些經驗總結:
特征工程
-
業務相關的用戶行為特征一般來說最有效
- 用戶在商店的安裝列表 vs 用戶的年齡性別
-
保持數據的“原汁原味”,二次加工反而容易丟失信息
- 用戶瀏覽記錄 vs 用戶畫像興趣標簽
-
組合特征才能發揮最大威力
算法模型
-
線性模型+組合特征效果很好
- 離線實驗了FM等非線性模型,效果不明顯
-
線性模型+深度模型是未來的方向
- 正在線下實驗,已經看到一些效果
蘑菇街實時計算平臺經理 黃大鵬:蘑菇街實時數據平臺實踐
蘑菇街實時計算平臺經理黃大鵬在本次演講中呈現的分享主題是《蘑菇街實時數據平臺實踐》。著眼于蘑菇街的實時數據平臺,結合實時數倉的建設經驗,分析其建設中涉及的關鍵技術選型思路與,主要分享內容涉及蘑菇街實時計算平臺Mario,數據鏈路的治理和不同的應用場景的介紹。
蘑菇街實時計算平臺經理 黃大鵬鑒于Storm任務開發維護難度相對較大、統計邏輯可讀性差、大量統計任務,以及基礎統計方法非常相似等因素,Mario流式計算平臺應運而生。黃大鵬在演講過程中對其系統架構進行了分析:
在介紹最后一部分內容時,他闡述了實時數倉管理的要點:
- ETL的管理
- 數據接口層
- 數據質量監控
- 日志打點
其中,實時數據ETL包括:
- 大日志拆解成小日志,各取所需,合并同類項
- 非結構化轉為結構化
- 日志質量監控
- 生存周期管理
同時總結了日志打點的經驗:
餓了么數據架構技術經理 倪增光:餓了么大數據基礎架構實踐
餓了么數據架構技術經理倪增光在本次演講中帶來《餓了么大數據基礎架構實踐》的主題分享,結合“餓了么”數據團隊的發展歷程,側重分享其數據架構在離線、實時和工具方面的建設經驗。
餓了么數據架構技術經理 倪增光首先,他詳細講解了“餓了么”的離線架構和實時架構:
隨后,他還圍繞平臺工具展開了一系列分享:
查詢平臺
- 多引擎
- 數據操作
- 底層策略
ETL調度
- 任務
- 底層工具support
- 前端操作
- 后端調度優化
實時平臺RDP
- 集群容量
- 任務管理
- 任務日志
- 常用組件封裝
至此,本次峰會上半場在熱烈的氛圍中暫告一段落,接連超過三個小時的分享并未影響與會者的參與熱情,相反,大牛們的精彩分享反而再一次點燃了大家的情緒,現場互動氣氛一度高漲。
短暫的休息之后,我們迎來了本場大數據核心技術與實戰峰會的下半場。下午13:30,大數據核心技術與實戰峰會在七牛云技術總監陳超的主持下繼續進行。來自有贊、游族、echo、In、萬達等資深專家分享在大數據領域的眾多實踐經驗。
午后的困頓也在講師們的幽默調動下一掃而空,上半場的互動熱情延得以延續,一問一答間,盡是技術靈感的碰撞,亮點紛呈,干貨不斷。
有贊大數據團隊負責人 洪斌:有贊大數據實踐: 敏捷型數據平臺的構建及應用
有贊大數據團隊負責人洪斌帶來《敏捷型數據平臺的構建及應用》的主題演講,從數據倉庫模型與工具、數據倉庫與數據分析、數據平臺的敏捷模式、數據平臺與信息檢索等方面入手,為觀眾呈現了一個接地氣的,在數據運營和研發效率上都能發揮作用的大數據平臺。
有贊大數據團隊負責人 洪斌首先,洪斌介紹了有贊數據平臺的設計思路和方法,探討了與此相關的一系列問題,包括我們為什么要設計數據倉庫?數據倉庫如何適應業務的變化?在數據的易用性方面有哪些措施?隨后,他介紹了構建在數據倉庫上的BI系統及其應用,以及大數據平臺在搜索引擎方面的實踐。
在講解數倉模型設計總體架構的過程中,他還特別介紹了采用的數據分析工具,并提供了數據分析各種工具的對比列表,同時指出其中最常用的當屬即席查詢:
數據分析工具
- 即席查詢工具
- 多維分析工具
- 搜索分析工具
- 報表系統
即席查詢
- 使用者: 數據分析人員
- SQL模式
- 特點
- 專業
- 迅速
- 挑戰
- 懂數據
- 懂業務
游族網絡運維開發經理 姚仁捷:Machine Learning in Anomaly Detection
游族網絡運維開發經理 姚仁捷分享了《Machine Learning in Anomaly Detection》的主題分享。正式開始演講之前,他以詼諧的口吻和在座觀眾分享了自己的日常,成功調動了大家的情緒,活躍了現場氣氛。隨后,由一組圖片引入“異常”——“正常”的邏輯關系分析,引用《Practical Machine Learning》一書中的觀點,指出定位異常的前提是定義何為正常,同時分享了兩個等式:
- Normals = Patterns
- Normals = Models
發現問題、解決問題是運維永恒不變的兩個主題。而如何發現問題,是其中的難點和重點。運維收集的數據可能數以百萬計,如何從其中快速、準確地發現問題(即異常檢測)正是本次演講的主要內容。
游族網絡運維開發經理 姚仁捷演講有三個部分,首先從更加抽象、一般性的角度介紹異常本身以及異常檢測的定義。
然后,從“靜態閾值法”開始,介紹多種異常檢測的算法和實現,希望能通過更數學的方式,讓大家對目前流行的幾種異常檢測方法的優缺點有所了解。
在這一部分提供了重建的誤差分析圖,以及誤差的正態分布表:
最后一部分會著重介紹使用機器學習的方法,介紹一些對異常檢測有很大提升的算法,通過真實數據和例子,演示機器學習對于異常檢測的幫助。由深入淺的分享過程,正對應了他在演講中多次笑言的那一句“超簡單”。
echo數據組算法工程師 陳健:echo探索個性化推薦和版權識曲之路
echo數據組算法工程師陳健帶來《echo探索個性化推薦和版權識曲之路》主題分享,從echo個性化推薦和echo音樂分析兩方面展開,分析如何處理隱式音樂App等隱式數據來進行矩陣分解、如何在Spark上并行logistic matrix factorization來處理超大的稀疏矩陣、音樂分析綜述,以及如何通過頻譜抽取音頻本地特征并根據深度學習等算法學習全局音頻的特征。
echo數據組算法工程師 陳健(右)首先,他具體闡釋了通過App用戶的播放、喜歡、分享、下載、評論等行為隱式數據,使用logistic matrix factorization模型,獲取用戶的特征向量和音樂的特征向量的方法,并對隱式反饋數據做了介紹:
隱式反饋數據
-
特征
- 無負反饋
- 反饋數據存在多種維度
- 數據存在噪音
- 數據大小不能代表用戶的喜好程度
-
觀測值
- fongshi
此外,為了檢測用戶上傳的歌曲是否屬于未收錄版權的歌曲,通過分析音樂的音頻,進行頻譜變換以及特征學習,生成對應的音頻指紋。然后根據音頻指紋判斷用戶上傳歌曲是否侵權。音頻指紋流程如下:
In架構師 張毅:支持億級用戶,In數據服務的架構演進
In架構師張毅本次峰會的演講主題是《支持億級用戶,In數據服務的架構演進》,分享了in數據服務(即大數據)從初創到支持億級用戶, 從單點服務到高可用集群服務, 從簡單CRUD到融合實時大數據挖掘推薦的演變過程, 以及這一過程中的經驗和教訓等實踐細節。
以架構演進為藍本,首先從in的業務組成出發,再到in的數據服務,最后到in的數據服務架構演進硬件網絡拓撲結構,一步步講解億級用戶下,In大數據的架構。
In架構師 張毅演講過程中,他從In第一代數據服務講起,分析歷代數據服務的有點和局限性,其中第三代為In現在所采用的數據服務:
-
業務挑戰:
- 數據量和訪問量激增
- 基于大數據的推薦
-
數據服務設計原則
- 業務滿足優先
- 大幅重構
- 滿足長遠需求
-
數據服務組成:
- 存儲: MySQL, BanyanDB, 數據倉庫
- 計算: Spark
- 流轉: Flume, ELK, RunDeck
-
數據服務架構:
-
優點:
- 支持中等規模大數據處理
- 自動化水平大幅提升
-
缺點:
- 大規模大數據處理能力不足
- 訪問接口復雜, 對業務方要求較高
同時他還指出,目前正處于第三代向第四代遷移的過程中,而In第四代數據服務的設計目標是:
- 支持大規模大數據處理
- 建立統一數據訪問層
演講最后,張毅對本次分享內容做了一個總結:
萬達金融網絡技術中心大數據技術專家 李呈祥:Apache Flink在萬達金融的實踐
萬達金融網絡技術中心大數據技術專家李呈祥帶了主題為《Apache Flink在萬達金融的實踐》的技術分享,他主要從萬達金融基于Apache Flink相關的項目、為什么選擇Flink搭建流計算平臺、在使用Flink的過程中遇到的問題和一些使用經驗三個方面進行分析,結合Apache Flink在金融領域的應用實踐,指出Apache Flink的功能特性及其與其他流計算框架的不同之處。
萬達金融網絡技術中心大數據技術專家 李呈祥演講開始之初,他首先介紹了萬達金融基于流計算平臺的項目:
- 數字權益交易平臺
- 實時風控平臺基本架構
- 實時風控計算平臺設計指標
同時,他闡釋了選擇流式計算平臺的原因包括:
- 正確性,交易平臺要求各階段的輸出結果絕對正確;
- 功能完備性,各種復雜的行情統計功能,需要基于Event Time Window、Evictor等功能特性;
- 低延遲,要求100ms級別的延遲,實時返回風控結果;
- 易用性,基于CEP庫等實現規則模型;
- 高吞吐量,滿足大批量的數據索引需求;
- 易用性,ES Connector等可方便連接ES。
此外,李呈祥還從功能特性、延遲和吞吐量等性能指標出發,分析對比Flink、Spark和Storm,進一步揭示萬達選擇Flink搭建流式計算平臺的原因:
在最后一組問答中,本場大數據峰會也接近尾聲,與會者在此通過SDCC的平臺進行交流切磋,在get豐富干貨的同時,更是表達了對明天架構峰會的更高期望。
總結
以上是生活随笔為你收集整理的【SDCC 2016·杭州站】9月22日大数据实战专场精彩呈现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 行人检测资源综述文献
- 下一篇: 数字图像处理目录列表