【译】Using Machine Learning to Understand the Ethereum Blockchain
ConsenSys的?定量開發人員?Paul?Lintilhac
目前,數據科學分析的溫床研究領域是機器學習,一種使用算法研究大量數據的AI形式。?它用于從測序DNA到研究金融市場和腦機接口的所有事情。?有許多不同類型的機器學習,具有不同的數據要求和目標。?在過去的一年中,ConsenSys通過Alethio這樣的項目推動了其分析和數據科學能力的發展?,分析平臺幫助用戶實時地對區塊鏈數據進行可視化,解釋和反應。
區塊鏈網絡的不可改變的公共記錄和分散性為數據科學家提供了一個令人興奮的沙盒,提供了全新的數據分析和模式識別。?為了開始理解我們如何從這個看似混亂的數據環境中解脫出來,我們將首先描述由Consensys的數據科學家正在開發的兩大類機器學習,并舉幾個例子來說明如何應用每種機器學習在實踐中。
有監督學習與無監督學習
無監督學習涉及在大型數據集中查找模式并使用它們提取含義。?無監督學習模型本質上不具有預測性 - 盡管它們可以在更大的預測建模系統中發揮作用。?相反,無監督學習試圖將龐大而復雜的數據集簡化為更簡單的高層次模式或主題。?然后可以將這些主題用作表征個別數據點的參考,并將它們放入有用的上下文中。
異常和新穎性檢測系統是無監督學習模型的例子。?通過將大型數據集縮減為少量常見主題,可以了解特定交易或帳戶點對于“正常”意味著什么。通過比較任何給定的交易或帳戶與此正常的學習定義,我們可以確定與全球平均值相比異常程度(異常檢測),或與最近的歷史平均值(新穎性檢測)相比。然后,可以使用這些異常檢測系統來提醒用戶,整個區塊鏈或者特定子集的有趣賬戶或交易中是否發生了異常情況。?Alethio目前為交易,區塊和賬戶提供異常檢測系統。
由Alethio提供的其他類型的分析可以被認為是無監督學習,包括排名算法或影響分析,如頁面排名。?雖然這些通常不被稱為機器學習算法(而只是算法),但它們的確具有在數據集中查找整體模式并使用它們添加上下文的相同目的。
監督式學習試圖采用一組具有已知特征的觀測值,并利用它們估計每個觀測值的其他一些變量(響應或標簽)的相應值。?這可以分為兩類:預測和分類。?試圖使用歷史數據來估計變量的未來價值(一種反應)被稱為預測。?嘗試使用關于實體的現有數據來確定該實體是否屬于某個類別(分配“標簽”)稱為分類。
一般而言,區塊鏈上的“知識”由可在鏈上獲得的原始協議級數據組成,例如交易數據。?這些原始數據可以用于提取賬戶的特征,例如它們的總余額,平均交易頻率,持有貨幣的平均年齡等。Alethio最近通過語義提升來增加協議級數據的努力擴大了“知道“超越協議層以包含應用程序級別的數據,例如合同是否為令牌,以及遵從哪種標準。?所有這些已知量都可以用作監督學習模型中特征的基礎。
另一方面,未知數量(標簽或響應)根據定義不是一條當前可用的鏈上數據;否則它已經被我們的數據管道知道并被捕獲。?未知數量可能是某些上鏈數據的未來價值,例如某個未來某個賬戶的余額。?更常見的是,未知數量是根本不可用的某個價值。?如果您試圖預測賬戶是否屬于某個類別,例如分散交易,DOS賬戶或龐氏騙局,您需要關注這些數據。
ETHSTats儀表板實時跟蹤區塊鏈數據。數據集的重要性
這是區塊鏈上無監督學習的數據需求成為重要問題的地方(閱讀:機會!)。?為了訓練和校準監督學習模型,必須有一些大的初始數據集,其標簽或響應值已知。?這校準了模型,以便預測的和實際的響應盡可能接近。?這意味著當新的觀測值出現在響應未知的地方時,假設新觀測值是由生成原始數據集的相似過程產生的,則預測值將接近真值。?一旦訓練階段完成并且模型被校準,則可以將其應用于響應未知的新觀察值。
在價格預測的情況下,這意味著擁有大量的歷史價格數據庫。?在對賬戶進行分類的情況下,這意味著擁有已被標記為分散交易所,DOS賬戶或龐氏騙局的初始賬戶。
在這些分類示例中,用于培訓的數據集中的標簽通常只能通過大量工作才能獲得。?一種可能性是從像coinmarketcap或etherscan這樣的網站提取數據,構建ETL以從其他區塊鏈業務導入有趣的數據,或者通過經過訓練的研究助理的艱苦工作,他們通過瀏覽網頁和分析源代碼收集關于鏈上帳戶的數據。
為了機器學習的目的,收集關于賬戶(元數據)的外部數據的重要性的實現是在ConsenSys創建一個名為Rakr的新發言的動機。?通過與網格中的Alethio和其他輻條和服務進行合作,Rakr希望為收集和分享這些有價值的元數據提供一個平臺。?盡管將區塊鏈元數據與原始鏈上數據集成的含義遠遠超出機器學習的范圍,但這種用于監督機器學習的元數據的適用性將繼續成為Rakr平臺的主要用例。?通過將Alethio強大的分析平臺與Rakr提供的有價值的元數據相結合,ConsenSys數據科學的應用將僅受限于想象力。
在實踐中
ConsenSys制作的監督學習模型的第一個例子是由Alethio開發的Ponzi模型,在本文續篇中將對其進行更詳細的描述。?該模型的開發奠定了Alethio未來許多分析可能性的基礎。?Alethio希望在近期內將這種模式擴展到一個更普遍的欺詐模式。
更一般地說,在這個模型開發工作中建立的特征提取流水線可以被重新用于根據Rakr數據庫中的一個標簽對任何賬戶進行分類,包括賬戶/合同是交易所,藝術DAO,賭場,DOS相關賬戶等等。?隨著Rakr提供的一組有趣的元數據不斷增加,更多的新模型將成為可能。?隨著Alethio的分析功能不斷發展并創造出更多實用功能,這些模型將變得更加強大和多樣化。
能夠知道給定帳戶是否為欺詐或與DOS攻擊相關,對于管理以太坊網絡的財務和網絡風險至關重要。?如果我們想要生產能夠提供有關新賬戶和最新行為數據的可操作見解的模型,它們必須滿足特殊要求。?例如,我們必須確保它們實時更新,并且在模型運行時用于分類和預測的特征是可靠和完整的。?這意味著可以用于“舊”賬戶分類的某些功能,例如“合同是否最終自毀”,不能實時應用于賬戶。?由于該功能的價值可能會在未來發生變化,因此真正的價值在模型運行時并不真正知曉。
實時機器學習模型呈現出超越歷史建模技術的獨特挑戰和機會。?有了這些說法,將賬戶分類為欺詐行為的能力超出了實時風險管理的范圍;?分類模型即使在“過去”應用時仍然有價值。?能夠準確分類歷史欺詐對研究目的很有用,即使這些帳戶不再活躍。?更一般地說,將標簽附加到區塊鏈上的賬戶允許用戶定義區塊鏈上的語義上感興趣的賬戶子集(例如“ICO”或“交易所”),使區塊鏈可基于人們關心的標準進行搜索。
創建一個有關鏈上實體的經驗人類知識數據庫已經是一項有價值且具有挑戰性的任務,也是許多其他產品和服務的必要基礎。?但是,迄今為止擁有超過3000萬個以太坊賬戶和合約以及每天創建的約100,000個新賬戶,人類根本無法標記以太坊賬戶的全部歷史記錄,其中大多數賬戶沒有有用的信息(如合同來源,網站,或任何其他識別信息),人類可以使用它們對它們進行分類或標記。?這就是為什么機器學習模型是至關重要的:因為它們具有無限可擴展性,并且可以用于僅使用表征鏈上行為的原始數據對帳戶進行分類。
通過強大的分析和機器學習增強人們對區塊鏈的了解,我們設想了一個區塊鏈,其中每個賬戶和實體都豐富了有用的分類和屬性,無論是由人類創建的經驗模型還是由人類創建,或者由統計模型預測和創建。?這對于區塊鏈知識的透明度和可訪問性而言將是一個重大的進步,這是區塊鏈技術蓬勃發展所必需的基本方面。
請留意Paul Lintilhac撰寫的下一篇文章,其中將介紹Alethio最近的一項數據科學計劃:龐氏模型。
https://media.consensys.net/using-machine-learning-to-understand-the-ethereum-blockchain-1778485d603a
總結
以上是生活随笔為你收集整理的【译】Using Machine Learning to Understand the Ethereum Blockchain的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 【译】Alethio: Lighting
- 下一篇: 【译】Blockchain-based
