當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

腾讯重磅发布全栈机器学习平台Angel 3.0

發(fā)布時間：2024/2/28 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了腾讯重磅发布全栈机器学习平台Angel 3.0 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

騰訊首個AI開源項目Angel，正式發(fā)布一個里程碑式的版本：Angel 3.0。這是一個全棧的機器學(xué)習(xí)平臺，功能特性涵蓋了機器學(xué)習(xí)的各個階段，超過50萬行代碼，在 GitHub 上 Star 數(shù)已超過 4200，Fork 數(shù)超過 1000。

一個全棧的機器學(xué)習(xí)平臺，近日悄悄上線了。

8月22日，騰訊首個AI開源項目Angel正式發(fā)布一個里程碑式的版本：Angel 3.0。

Angel 3.0嘗試打造一個全棧的機器學(xué)習(xí)平臺，功能特性涵蓋了機器學(xué)習(xí)的各個階段：特征工程，模型訓(xùn)練，超參數(shù)調(diào)節(jié)和模型服務(wù)。

自2016年年初在騰訊內(nèi)部上線以來，2017 年 6 月， Angel 在 Github上低調(diào)開源，截至目前，Angel 在 GitHub 上 Star 數(shù)已超過 4200，Fork 數(shù)超過 1000。Angel 項目目前總共有 38 位代碼貢獻者，其他包括 8 位 committer，他們總共提交了超過 2000 個 commit。

Angel在2017年6月正式開源

從1.0到3.0，Angel發(fā)生了巨大的變化，它從一個單一的模型訓(xùn)練平臺發(fā)展到涵蓋機器學(xué)習(xí)各個流程，包含自己生態(tài)的通用計算平臺，代碼量也超過了50萬行。

為了讓整個系統(tǒng)更加的智能，Angel 3.0新增了超參數(shù)調(diào)節(jié)的功能，目前支持3種算法：隨機搜索，網(wǎng)格搜索和貝葉斯優(yōu)化。

Angel (https://github.com/Angel-ML)是基于參數(shù)服務(wù)器架構(gòu)的分布式計算平臺，致力于解決稀疏數(shù)據(jù)大模型訓(xùn)練以及大規(guī)模圖數(shù)據(jù)分析問題，它由騰訊與北京大學(xué)聯(lián)合研發(fā)，兼顧了工業(yè)界的高可用性和學(xué)術(shù)界的創(chuàng)新性。

Angel發(fā)布里程碑版本3.0：全棧機器學(xué)習(xí)平臺

Angel是騰訊開源的大規(guī)模分布式機器學(xué)習(xí)平臺，專注于稀疏數(shù)據(jù)高維模型的訓(xùn)練。目前Angel是Linux深度學(xué)習(xí)基金會孵化項目，相比于TensorFlow, PyTorch和Spark等業(yè)界同類平臺，她有如下特點：

Angel是一個基于Parameter Server（PS）理念開發(fā)的高性能分布式機器學(xué)習(xí)平臺，它具有靈活的可定制函數(shù)PS Function（PSF），可以將部分計算下推至PS端。PS架構(gòu)良好的橫向擴展能力讓Angel能高效處理千億級別的模型。
Angel具有專門為處理高維稀疏特征特別優(yōu)化的數(shù)學(xué)庫，性能可達breeze數(shù)學(xué)庫的10倍以上。Angel的PS和內(nèi)置的算法內(nèi)核均構(gòu)建在該數(shù)學(xué)庫之上。
Angel擅長推薦模型和圖網(wǎng)絡(luò)模型相關(guān)領(lǐng)域（如社交網(wǎng)絡(luò)分析）。圖1是Angel和幾個業(yè)界主流平臺在稀疏數(shù)據(jù)，模型維度，性能表現(xiàn)，深度模型和生態(tài)建設(shè)幾個維度的對比。Tensorflow和PyTouch在深度學(xué)習(xí)領(lǐng)域和生態(tài)建設(shè)方面優(yōu)勢明顯，但在稀疏數(shù)據(jù)和高維模型方面的處理能力相對不足，而Angel正好與它們形成互補，3.0版本推出的PyTorch On Angel嘗試將PyTorch和Angel的優(yōu)勢結(jié)合在一起。

圖1 Angel與業(yè)界主流平臺的對比

Angel系統(tǒng)架構(gòu)

Angel 3.0系統(tǒng)架構(gòu)如圖2所示。

圖2 Angel 3.0架構(gòu)

Angel自研的高性能數(shù)學(xué)庫是整個系統(tǒng)的基礎(chǔ)，Angel的PS功能和內(nèi)置的算法內(nèi)核均是在這個數(shù)學(xué)庫基礎(chǔ)之上實現(xiàn)的。

Angel PS提供了高效，穩(wěn)定和靈活的參數(shù)存儲和交換服務(wù)。在3.0版本中，我們對Angel PS功能進行了擴展，使得它可以存儲任意類型的對象，一個典型的例子是在圖算法的實現(xiàn)過程中，我們使用Angel PS來存儲了大量復(fù)雜的對象。

MLcore是Angel自研的一套算法內(nèi)核，它支持自動求導(dǎo)，可以使用JSON配置文件定義和運行算法。除此之外，在3.0版本中，Angel還集成了PyTorch作為計算引擎。在計算引擎層之上是計算框架，它們可以看作計算引擎的容器，目前支持3種計算框架：原生的Angel，Spark On Angel（SONA）和PyTorch On Angel（PyTONA），這些計算框架可以使得Spark和PyTorch用戶可以無縫切換到Angel平臺。最上層是兩個公共組件：AutoML和模型服務(wù)。

Angel使用情況

如圖3所示，在過去12個月，Angel在騰訊內(nèi)部的任務(wù)數(shù)量有了非常明顯的增長，增幅達到150%。值得一提的是，Spark On Angel的任務(wù)數(shù)增長了10倍，為了讓Spark On Angel更加的易用，3.0版本對Spark On Angel做了大幅度升級。在騰訊內(nèi)部，使用Angel的業(yè)務(wù)包括騰訊視頻，騰訊新聞和微信等。

圖3騰訊內(nèi)部Angel任務(wù)數(shù)

Angel官方維護了一個QQ群與外部開發(fā)者進行交流，對群用戶的統(tǒng)計表明：

Angel的絕大部分用戶來自中國，主要分布在北京，上海，杭州，成都和深圳等互聯(lián)網(wǎng)行業(yè)比較發(fā)達的城市。
有超過100家的公司和科研機構(gòu)在使用或測試Angel，其中包括了中國最頂級的IT公司：微博，華為和百度等。

圖4 Angel開源用戶

Angel開源

圖5 GitHub上Angel的統(tǒng)計信息以及Angel發(fā)表的論文

從2017年6月開源以來，Angel受到了較多的關(guān)注，目前在GitHub上Star數(shù)超過4200，Fork數(shù)超過1000。Angel項目目前總共有38位代碼貢獻者，其他包括8位committer，他們總共提交了超過2000個commit。

從1.0到3.0，Angel發(fā)生了巨大的變化，它從一個單一的模型訓(xùn)練平臺發(fā)展到涵蓋機器學(xué)習(xí)各個流程，包含自己生態(tài)的通用計算平臺，代碼量也超過了50萬行。為了后續(xù)維護和使用的方便，Angel拆分成8個子項目，統(tǒng)一放在Angel-ML目錄下（https://github.com/Angel-ML）：angel，PyTorch On Angel，sona，serving，automl，mlcore，math2和format，這些子項目會在下文詳細介紹。

Angel 3.0新特性

圖6 Angel 3.0概覽（紅色的表示新增特性，白色的表示已有的但在持續(xù)改進的特性）

圖6提供了一個Angel 3.0特性的整體視圖。Angel 3.0試圖打造一個全棧的機器學(xué)習(xí)平臺，它的功能特性涵蓋了機器學(xué)習(xí)的各個階段：特征工程，模型訓(xùn)練，超參數(shù)調(diào)節(jié)和模型服務(wù)。

Angel的特征工程模塊基于Spark開發(fā)，增強了Spark的特征選擇功能，同時使用特征交叉和重索引實現(xiàn)了自動特征生成。這些組件可以無縫地整合進Spark的流水線。為了讓整個系統(tǒng)更加的智能，Angel 3.0新增了超參數(shù)調(diào)節(jié)的功能，目前支持3種算法：隨機搜索，網(wǎng)格搜索和貝葉斯優(yōu)化。在模型服務(wù)方面，Angel 3.0提供了一個跨平臺的組件Angel Serving， Angel Serving不僅可以滿足Angel自身的需求，還可以為其他平臺提供模型服務(wù)。

在生態(tài)方面，Angel也嘗試將PS能力賦能給其他的計算平臺，目前已經(jīng)完成了Spark On Angel和PyTorch On Angel兩個平臺的建設(shè)。這兩個平臺各有優(yōu)勢和側(cè)重， Spark On Angel使用的是Angel內(nèi)置的算法核心，主要負責(zé)常見推薦領(lǐng)域的機器學(xué)習(xí)算法和基礎(chǔ)圖算法。PyToch On Angel使用PyTorch作為計算核心，主要負責(zé)推薦領(lǐng)域深度學(xué)習(xí)算法和圖深度學(xué)習(xí)算法。

自動特征工程

特征工程，例如特征交叉和選擇，對于工業(yè)界的機器學(xué)習(xí)應(yīng)用具有重要意義。Spark提供了一些特征選擇算子，但是仍有一些局限性。Angel基于Spark提供了更多的特征選擇算子：

基于統(tǒng)計的運算符，包括VarianceSelector和FtestSelector
基于模型的運算符，包括LassoSelector和RandomForestSelector

大多數(shù)在線推薦系統(tǒng)經(jīng)常選擇線性算法，例如邏輯回歸作為機器學(xué)習(xí)模型，但邏輯回歸需要復(fù)雜的特征工程才能實現(xiàn)較高的精度，這使得自動特征合成至關(guān)重要。但是，現(xiàn)有的自動化的高階特征合成方法帶來了維度災(zāi)難。為了解決這個問題，Angel實現(xiàn)了一種迭代生成高階合成特征的方法。每次迭代由兩個階段組成：

擴增階段：任意特征的笛卡爾積
縮約階段：特征選擇和特征重索引

以下是迭代步驟：

首先任意的輸入特征之間通過笛卡爾積生成合成特征。該步驟后，特征數(shù)量將以二次方式增加，接下來，從合成特征中選擇最重要的特征子集（使用例如VarianceSelector和RandomForestSelector）
然后，重新索引所選擇的特征以減少特征空間
最后，合成特征與原始特征拼接在一起

圖7自動特征工程流程

如圖7所示，這種特征合成方法線性地增加特征數(shù)量，避免了維度災(zāi)難。在Higgs數(shù)據(jù)集上的實驗表明合成的特征能有效地提高模型精度（如表1所示）。

表1特征合成效果

Spark On Angel (SONA)

在Angel 3.0中，我們對Spark On Angel做了大幅度的優(yōu)化，添加了下面這些新的特性：

Spark On Angel中集成了特征工程。在集成的過程中并不是簡單地借用Spark的特征工程，我們?yōu)樗械倪\算支持了長整型索引的向量使其能夠訓(xùn)練高維稀疏模型
與自動調(diào)參無縫連接
Spark用戶能夠通過Spark-fashion API毫不費力的將Spark轉(zhuǎn)換成Angel
支持兩種新的數(shù)據(jù)格式：LibFFM 和Dummy

圖8 Spark On Angel架構(gòu)

除了這些大的特征，我們也在持續(xù)完善Spark On Angel的算法庫：添加了一些新的算法，如：Deep & Cross Network (DCN) 和 Attention Factorization Machines (AFM)等；同時對已有的算法做了大量的優(yōu)化，例如對LINE和K-Core算法進行了重構(gòu)，重構(gòu)后的算法性能和穩(wěn)定性都有大幅度提升。

從圖9中可以看出，Spark On Angel中的算法與Spark中的算法存在顯著的不同，如：基于Spark On Angel的算法主要是針對推薦和圖領(lǐng)域，然而Spark中的算法更通用。

圖9 Spark與Spark On Angel算法比較

圖10 Spark On Angel算法示例

圖10提供了一個基于Spark On Angel的分布式算法示例，主要包含以下步驟：

在程序開始時啟動參數(shù)服務(wù)器，程序結(jié)束時關(guān)閉參數(shù)服務(wù)器
將訓(xùn)練集和測試集以Spark DataFrame形式加載
定義一個Angel模型并以Spark的參數(shù)設(shè)置方式為其設(shè)置參數(shù)。在這個示例中，算法是一個通過JSON定義的計算圖
使用“fit”方法來訓(xùn)練模型
使用“evaluate”方法來評估已訓(xùn)練的模型

在訓(xùn)練完成后，Spark On Angel將會展示多種模型指標(biāo)，如：準(zhǔn)確率, ROC 曲線, AUC等。用戶可以保存訓(xùn)練好的模型以便下次使用。

圖11 Spark On Angel和TensorFlow性能比較

我們在兩種流行的推薦算法Deep & Wide 和 DeepFM上使用了相同的資源和數(shù)據(jù)集比較了Spark On Angel和Tensorflow的性能。如圖11所示，在Deep & Wide算法上Spark On Angel比Tensorflow快3倍，而在DeepFM算法上Tensorflow運行稍快一些。

PyTorch On Angel（PyTONA）

PyTorch On Angel是Angel 3.0新增的特性，它主要是為了解決大規(guī)模圖表示學(xué)習(xí)和深度學(xué)習(xí)模型訓(xùn)練問題。

在過去幾年時間，圖卷積神經(jīng)網(wǎng)絡(luò)（GNN）快速發(fā)展，一系列的研究論文以及相關(guān)的算法問世：例如GCN，GraphSAGE和GAT等，研究和測試結(jié)果表明，它們能夠比傳統(tǒng)圖表示學(xué)習(xí)更好的抽取圖特征。騰訊擁有龐大的社交網(wǎng)絡(luò)（QQ和微信），同時擁有大量對圖數(shù)據(jù)進行分析的需求，而圖表示學(xué)習(xí)正是這些分析的基礎(chǔ)，因此騰訊內(nèi)部對GNN有著強烈的需求，這也是我們開發(fā)PyTorch On Angel的主要原因之一。

大規(guī)模圖的表示學(xué)習(xí)面臨著兩個主要的挑戰(zhàn)：第一個挑戰(zhàn)來自于超大規(guī)模圖結(jié)構(gòu)的存儲以及訪問，這要求系統(tǒng)不僅能存得下，還需要提供高效的訪問接口，例如需要提供高效的訪問任意節(jié)點的兩跳鄰居的接口；第二個挑戰(zhàn)來自于GNN計算過程，它需要有高效的自動求導(dǎo)模塊。

通過對Angel自身狀況以及對業(yè)界已有系統(tǒng)的分析，我們得到如下結(jié)論：

TensorFlow和PyTorch擁有高效的自動求導(dǎo)模塊，但是它們不擅長處理高維度模型和稀疏數(shù)據(jù)
Angel擅長處理高維度模型和稀疏數(shù)據(jù)，雖然Angel自研的計算圖框架（MLcore）也可以自動求導(dǎo)，但是在效率和功能完整性上卻不及TensorFlow和PyTorch，無法滿足GNN的要求

為了將兩者的優(yōu)勢結(jié)合起來，我們基于Angel PS開發(fā)了PyTorch On Angel平臺，基本思路是使用Angel PS來存儲大模型，使用Spark來作為PyTorch的分布式調(diào)度平臺，也就是在在Spark的Executor中調(diào)用PyTorch來完成計算。

PyTorch On Angel的架構(gòu)如圖12所示：

圖12 PyTorch On Angel系統(tǒng)架構(gòu)

PyTorch On Angel擁有3個主要的組件：

Angel PS：存儲模型參數(shù)，圖結(jié)構(gòu)信息和節(jié)點特征等，并且提供模型參數(shù)和圖相關(guān)數(shù)據(jù)結(jié)構(gòu)的訪問接口，例如需要提供兩跳鄰接訪問接口

Spark Driver：中央控制節(jié)點，負責(zé)計算任務(wù)的調(diào)度和一些全局的控制功能，例如發(fā)起創(chuàng)建矩陣，初始化模型，保存模型，寫checkpoint以及恢復(fù)模型命令

Spark Worker：讀取計算數(shù)據(jù)，同時從PS上拉取模型參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)等信息，然后將這些訓(xùn)練數(shù)據(jù)參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)傳給PyTorch，PyTorch負責(zé)具體的計算并且返回梯度，最后Spark Worker將梯度推送到PS更新模型

當(dāng)然，這些細節(jié)都是封裝好的，算法開發(fā)人員和用戶并不需要了解。在PyTorch On Angel平臺上開發(fā)新算法，只需要關(guān)注算法邏輯即可，與開發(fā)單機的PyTorch算法并沒有太大區(qū)別。下面給出一個2層GCN算法的實現(xiàn)例子：

圖13在PyTorch On Angel上實現(xiàn)GCN的例子

算法開發(fā)完成后，將代碼保存為pt文件，然后將pt文件提交給PyTorch On Angel平臺就可以實現(xiàn)分布式訓(xùn)練了。

我們已經(jīng)在PyTorch On Angel上實現(xiàn)了許多算法：包括推薦領(lǐng)域常見的算法（FM，DeepFM，Wide & Deep，xDeepFM，AttentionFM， DCN和PNN等）和GNN算法（GCN和GraphSAGE）。在后續(xù)的版本迭代中，我們將會進一步豐富PyTorch On Angel的算法庫。

由于結(jié)合了PyTorch和Angel的優(yōu)點，PyTorch On Angel在算法性能方面有很大的優(yōu)勢：對于推薦領(lǐng)域常見的深度學(xué)習(xí)算法，性能可以達到TensorFlow的4倍以上；對于GNN算法，性能也遠好于目前業(yè)界開源的同類型平臺（具體的性能數(shù)據(jù)會在開源社區(qū)陸續(xù)公開）。下圖是在公開的數(shù)據(jù)集criteo kaggle2014(4500萬訓(xùn)練樣本，100w特征)上做的對比測試：

圖14 PyTorch On Angel和TensorFlow性能對比測試

除了性能方面的優(yōu)勢，PyTorch On Angel還有一個比較大的優(yōu)勢就是易用性好。如圖12所示：PyTorch運行在Spark的Executor中，可以實現(xiàn)Spark圖數(shù)據(jù)預(yù)處理和PyTorch模型訓(xùn)練的無縫對接，在一個程序中完成整個計算過程。

自動超參數(shù)調(diào)節(jié)

傳統(tǒng)超參數(shù)調(diào)節(jié)的方式有兩種（如圖15所示）：

網(wǎng)格搜索：網(wǎng)格搜索將整個搜索空間切分為網(wǎng)格，假設(shè)超參數(shù)是同等重要的。這種方式雖然直觀，但有兩個明顯的缺點：1）計算代價隨參數(shù)數(shù)量的增長而呈指數(shù)增長；2）超參數(shù)的重要程度常常是不同的，網(wǎng)格搜索可能會花費太多精力來優(yōu)化不太重要的超參數(shù)

隨機搜索：隨機采樣超參數(shù)組合，并評估抽樣組合。雖然這種方法有可能關(guān)注更重要的超參數(shù)，但是仍無法保證找到最佳組合

圖15網(wǎng)格搜索和隨機搜索

貝葉斯優(yōu)化與傳統(tǒng)的無模型方法不同，使用計算成本較低的代理函數(shù)（surrogate function）來近似原始目標(biāo)函數(shù)。在貝葉斯優(yōu)化中，代理函數(shù)生成超參數(shù)組合的概率均值和方差。然后，效用函數(shù)（acquisition function）將評估超參數(shù)組合的預(yù)期損失或改進。這樣的概率解釋方法使貝葉斯優(yōu)化能夠使用少得多的開銷找到目標(biāo)函數(shù)的較優(yōu)解。

Angel 3.0包括傳統(tǒng)的兩種方法和貝葉斯算法優(yōu)化。對貝葉斯優(yōu)化，Angel實現(xiàn)了以下的功能：

代理函數(shù)：除了常用的兩種模型（高斯過程和隨機森林），也實現(xiàn)了EM + LBFGS優(yōu)化高斯過程內(nèi)核函數(shù)中的超參數(shù)
效用函數(shù)：實現(xiàn)了PI（Probability of improvement），EI（Expected Improvement）和UCB（Upper Confidence Bound）

由于每次評估目標(biāo)函數(shù)的計算開銷可能較大，如果觀察到候選的超參數(shù)組合在開始的若干輪迭代中表現(xiàn)不佳，可以提前停止這些候選超參數(shù)組合。Angel 3.0版本中實現(xiàn)了這種早停策略。

表2是在邏輯回歸算法的實驗，調(diào)節(jié)的超參數(shù)是學(xué)習(xí)速度和學(xué)習(xí)速度衰減率，結(jié)果顯示貝葉斯優(yōu)化的性能優(yōu)于隨機搜索和網(wǎng)格搜索，而隨機搜索的結(jié)果略優(yōu)于網(wǎng)格搜索

表2不同超參數(shù)自動條件方法的效果對比

Angel Serving

為了滿足在生產(chǎn)環(huán)境中高效地進行模型服務(wù)的需求，我們在Angel 3.0中實現(xiàn)了Angel Serving子系統(tǒng)，它是一個可拓展性強、高性能的機器學(xué)習(xí)模型服務(wù)系統(tǒng)，是全棧式機器學(xué)習(xí)平臺Angel的上層服務(wù)入口，使Angel生態(tài)能夠形成閉環(huán)。圖16展示了Angel Serving的架構(gòu)設(shè)計。

圖16 Angel Serving架構(gòu)

Angel Serving主要特征包括：

1）支持多種類型的API訪問服務(wù)，包括gRPC和Restful 接口；

2）Angel Serving是一個通用的機器學(xué)習(xí)服務(wù)框架，可插拔機制設(shè)計使得來自其他第三方機器學(xué)習(xí)平臺的模型可以很容易使用Angel Serving來服務(wù)，目前已經(jīng)支持三種平臺的模型：Angel，PyTorch和支持PMML模型格式的平臺（Spark、XGBoost等）；

3）受TensorFlow Serving的啟發(fā)，Angel Serving還提供細粒度版本控制策略：包括使用模型的最早，最新以及指定版本進行服務(wù)；

4）Angel Serving還提供豐富的的模型服務(wù)監(jiān)控指標(biāo)，包括：

QPS: 每秒請求數(shù)
總的請求數(shù)以及成功請求總數(shù)
請求的響應(yīng)時間分布
平均響應(yīng)時間

表3 Angel Serving和Tensorflow Serving性能對比

? ? ? ? ? ?

表3展示了Angel Serving和TensorFlow Serving性能對比結(jié)果，我們使用具有100萬個特征的DeepFM模型，向服務(wù)發(fā)送100,000個預(yù)測請求。Angel Serving和TensorFlow Serving的總耗時分別為56秒和59秒。兩個服務(wù)系統(tǒng)的平均響應(yīng)時間都為2毫秒。Angel Serving的QPS是1,900，而TensorFlow Serving的QPS是1,800。上述結(jié)果表明Angel Serving與TensorFlow Serving性能相當(dāng)，甚至更好。

案例一：騰訊短視頻推薦

圖17短視頻推薦數(shù)據(jù)處理流程

上圖所示是騰訊短視頻部門的一個使用案例。用戶的視頻播放日志和上下文信息被實時轉(zhuǎn)發(fā)給Kafka，流數(shù)據(jù)引擎Storm訂閱Kafka的數(shù)據(jù)。Storm是一個實時的特征生成器，它從一個離線的key-value存儲中獲得用戶畫像和視頻信息，將兩者拼接起來生成特征。生成的特征被傳輸?shù)皆诰€訓(xùn)練系統(tǒng)中來更新在線模型；同時，這些特征也被轉(zhuǎn)存到HDFS作為離線訓(xùn)練的輸入。離線模型通常用來初始化在線訓(xùn)練系統(tǒng)，當(dāng)出現(xiàn)異常時，離線模型還可以用來重置在線系統(tǒng)。本案例用到的推薦算法是FM，訓(xùn)練樣本24億條，特征維度為63611，在Spark上訓(xùn)練耗時10多個小時，應(yīng)用Angel后減少至1小時。

案例二：金融反欺詐

圖18金融反欺詐數(shù)據(jù)處理流程

金融欺詐檢測是大規(guī)模圖學(xué)習(xí)的常見案例，其網(wǎng)絡(luò)數(shù)據(jù)是異構(gòu)的，包含幾種不同類型的邊：

交易關(guān)系：用戶A和用戶B之間如存在交易關(guān)系表明他們之間曾出現(xiàn)過交易行為

設(shè)備關(guān)系：用戶A和用戶B之間如存在設(shè)備關(guān)系表明他們曾共享過同一個設(shè)備

Wi-Fi關(guān)系：用戶A和用戶B之間如存在Wi-Fi關(guān)系表明他們曾通過一個Wi-Fi連接到互聯(lián)網(wǎng)

金融詐騙者通常共享設(shè)備和Wi-Fi，通過擴展邊緣關(guān)系生成社區(qū)。Angel上的fast unfolding算法可以有效地發(fā)現(xiàn)這些社區(qū)。下游的欺詐風(fēng)險模型可以將這些社區(qū)的用戶畫像和網(wǎng)絡(luò)特征作為輸入來學(xué)習(xí)和推到反欺詐策略。該圖數(shù)據(jù)包含15億個節(jié)點和200億條邊，基于Spark GraphX的實現(xiàn)耗時20小時，而Angel僅需5小時。

小結(jié)

本文主要介紹了Angel在騰訊內(nèi)外的使用情況和3.0版本的新特性。

Angel在騰訊內(nèi)外的使用情況：

騰訊內(nèi)部：用戶數(shù)和任務(wù)數(shù)增加1.5倍
騰訊外部：超過100多家公司和機構(gòu)使用Angel
開源貢獻：4200多個star, 8個子項目，1100多個fork，2000多次commits
Angel 3.0新特性：
自動特征工程：新增特征選擇和組合方法，將特征合成、選擇和重新索引以pipeline的形式呈現(xiàn)，用來迭代生成高階合成特征
新的計算引擎：
SONA(加強)：特征工程支持索引為Long類型的向量；所有的算法被封裝成Spark風(fēng)格的APIs；SONA上的算法可以作為Spark的補充
PyTONA(新）：PyTONA作為圖學(xué)習(xí)算法的引擎被引入，目前支持GCN和GraphSage，同時也支持推薦領(lǐng)域的算法。PyTONA采用Python作為交互，因此是用戶友好的
自動機器學(xué)習(xí):Angel3.0引入了3種超參數(shù)調(diào)節(jié)算法：網(wǎng)格搜索、隨機搜索和貝葉斯優(yōu)化
Angel模型服務(wù)：Angel提供一個跨平臺的模型服務(wù)框架，支持Angel、PyTorch和Spark的模型，性能上與TensorFlow Serving相當(dāng)
支持Kubernetes:Angel3.0支持Kubernetes，從而可以在云上運行

Angel開源地址：

https://github.com/Angel-ML

總結(jié)

以上是生活随笔為你收集整理的腾讯重磅发布全栈机器学习平台Angel 3.0的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：腾讯技术直播间 | 零代码打造智能对话机
下一篇： VLDB 2019 | 揭秘腾讯TDSQ

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

腾讯重磅发布全栈机器学习平台Angel 3.0

總結(jié)

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操