关于联邦学习What、How、Who的灵魂三问
最近沉迷于學習政治經濟學無法自拔,聽了很多資本論相關的課程。今天也嘗試通過what how who的方式介紹下聯邦學習,
(感謝這個領域的專家,老同學Dr Liu給我的輸入)
靈魂三問指的是:
1.聯邦學習解決了什么問題
2.聯邦學習怎么解決的問題
3.具備什么樣條件可以實現聯邦學習商業化
聯邦學習解決了什么問題?
聯邦學習最早是Google在差不多兩年前提出的,當時我還興奮地發了一個文章講聯邦學習。Google定義了聯邦學習的概念,是通過多個終端聯合建模,實現一個完整的強大的模型。
Google提出聯邦學習后呢,這個方向一直不溫不火,因為仿佛聯邦學習解決的是不同終端間分布式建模的問題,把聯邦學習看作一種框架性的問題。
?
但是最近,國內一些公司開始逐步實現了聯邦學習的商業化,甚至有類似于FATE這樣的聯邦學習開源框架產生。我個人認為,聯邦學習之所以能在商業化場景找到突破口,是因為一些公司成功的重新定義了聯邦學習解決的問題。
今天在機器學習領域,框架性的問題有很多解決方案,但是數據的共享問題一直沒有好的答案。聯邦學習被重新定義為解決數據共享的一種方案,用來解決數據孤島問題。
之前在寫《機器學習實踐應用》的時候我做過一個調研,這個世界上92%以上的數據會保留到少數10家互聯網巨頭的數據庫里。也就是說,普通的企業如果想做模型的訓練,數據樣本不足是一個很大的問題,而且數據交互在業內基本上是禁區。
所以,如果將聯邦學習重新定位為解決數據孤島問題,在商業化方面的機會點會遠比解決一些技術框架性問題的機會大得多。
聯邦學習如何解決數據孤島問題?
首先大家要知道一個概念,機器學習模型可以簡單理解是一組權重值,在做模型訓練的時候的本質目的是找到這些權重值發展的合理方向,類似于求導。這種方向性可以通過梯度表示,聯邦學習就是利用了梯度的交換實現了不同終端的聯合建模。
如上圖講的,公司A和B,雖然不能交換數據共同建模,但是他們可以把各自模型訓練過程中的梯度做交換,因為梯度在離開數據之后是沒有實際意義的,也不會有監管和法律風險。
所以聯邦學習將模型訓練抽象成了利用多個模型間的模型的共享梯度進行建模,這就將聯邦學習轉換成了遷移學習,遷移學習接下來的技術手段就很成熟了。
于是,聯邦學習的技術難點并不在通過得到的梯度去優化模型,因為這一部分的技術很成熟。聯邦學習的難點在于如何做到各個公司間的梯度共享,因為這里面涉及到許多加密傳輸相關的問題,是信息編碼理論的范疇。編碼有很多方式,最簡單的可能就是哈希一下再傳輸(這部分沒研究過,雖然我本科是通信與信息專業畢業)~
?
總結下,聯邦學習解決問題的技術手段就是在遷移學習的基礎上加上信息編碼技術。這里面涉及到相當多的細節,就不展開了。
比如我提一個課后題,聯邦學習怎么做預測?假如某縱向聯邦學習生成了一個10個特征的模型,是由A和B兩家公司共同建模完成,每個公司貢獻5個特征。A公司拿到這個模型要怎么用呢?因為A只有包含5個特征的數據樣本啊~嘿嘿,這里面有很多設計,大家開通腦筋想一想。
具備什么樣的條件才能實現聯邦學習?
馬克思在《資本論》里說:“社會主義革命,會首先在生產力發達的國家誕生。”那想做聯邦學習這個生意需要什么樣的前提條件呢?
首先,聯邦學習按照數據的X和Y問題,分為橫向聯邦和縱向聯邦。
縱向:
橫向:
?
以中國互聯網公司的情況,橫向聯邦是很難有大的市場的。因為橫向聯邦意味著兩家公司需要數據格式一致,那大概率是在同一領域的相互競爭的兩家公司,合作的概率不大。
商業機會可能在縱向聯邦,需要有一家數據非常全的公司,然后其它小公司跟這家公司撞庫,這個商業模式是可能的。而梯度交換又要求所有使用聯邦學習的公司必須數據在同一云平臺。
所以,我大膽預測,如果未來幾年有誰能做好公共云聯邦學習的生意,一定背靠某個國內的大的云廠商才行。這個論斷純屬YY,畢竟國內還沒有特別成功的關于聯邦學習的范例共參考。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的关于联邦学习What、How、Who的灵魂三问的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈“知识蒸馏”技术在机器学习领域的应用
- 下一篇: 浅谈百度新一代query-ad 推荐引擎