當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【译】Attacks against machine learning — an overview

發(fā)布時間：2025/3/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了【译】Attacks against machine learning — an overview 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇博客文章調(diào)查了針對AI（人工智能）系統(tǒng)的攻擊技術(shù)以及如何防范它們。

在較高級別，對分類器的攻擊可以分為三種類型：

對抗性輸入 ，這是特制的輸入，其目的是可靠地錯誤分類以逃避檢測。對抗性輸入包括旨在逃避防病毒的惡意文檔，以及試圖逃避垃圾郵件過濾器的電子郵件。
數(shù)據(jù)中毒攻擊 ，涉及將訓練對抗數(shù)據(jù)提供給分類器。我們觀察到的最常見的攻擊類型是模型傾斜，攻擊者試圖以這樣的方式污染訓練數(shù)據(jù)，即分類器歸類為良好數(shù)據(jù)的分界與分類器歸類為壞分類之間的界限對他有利。我們在野外觀察到的第二種類型的攻擊是反饋武器化，其試圖濫用反饋機制以努力操縱系統(tǒng)以將好的內(nèi)容錯誤分類為濫用（例如，競爭者內(nèi)容或作為報復攻擊的一部分）。
模型竊取技術(shù) ，用于“竊取”（即復制）模型或通過黑盒探測恢復訓練數(shù)據(jù)成員資格。例如，這可用于竊取股票市場預測模型和垃圾郵件過濾模型，以便使用它們或能夠更有效地針對這些模型進行優(yōu)化。

這篇文章依次探討了這些攻擊類別，提供了具體的例子并討論了潛在的緩解技術(shù)。

這篇文章是四個系列中的第四篇，也是最后一篇，旨在簡要介紹如何使用AI構(gòu)建強大的反濫用保護。第一篇文章解釋了為什么AI是構(gòu)建強大保護以滿足用戶期望和日益復雜的攻擊的關(guān)鍵。在建立和啟動基于AI的防御系統(tǒng)的自然發(fā)展之后，第二篇文章涵蓋了與訓練分類器相關(guān)的挑戰(zhàn)。第三部分研究了在生產(chǎn)中使用分類器來阻止攻擊時面臨的主要困難。

這一系列的帖子是在我在RSA 2018發(fā)表的演講之后建模的。以下是對此演講的重新錄音：

你也可以在這里獲得幻燈片。

免責聲明：本文旨在概述每個對利用AI進行反濫用防御的主題感興趣的人，這對于那些正在進行跳躍的人來說是一個潛在的藍圖。因此，這篇文章的重點是提供一份清晰的高級摘要，故意不深入研究技術(shù)細節(jié)。也就是說，如果您是專家，我相信您會找到以前沒有聽說過的想法，技巧和參考資料，希望您能夠受到啟發(fā)，進一步探索它們。

對抗性投入

攻擊者不斷地使用新的輸入/有效載荷探測分類器以試圖逃避檢測。此類有效負載稱為對抗性輸入，因為它們明確設(shè)計為繞過分類器。

以下是對抗性輸入的具體示例：幾年前，一位聰明的垃圾郵件發(fā)送者意識到如果在電子郵件中多次出現(xiàn)相同的多部分附件，Gmail將僅顯示上面屏幕截圖中顯示的最后一個附件。他通過添加一個包含許多聲譽良好的域名的無形第一個多部分來試圖逃避檢測，從而武裝了這些知識。此攻擊是被稱為關(guān)鍵字填充的攻擊類別的變體。

更常見的是，分類器遲早會面臨兩種類型的對抗性輸入：突變輸入，即為避免分類器而專門設(shè)計的已知攻擊的變體，以及零有效輸入，這是有效載荷之前從未見過的。讓我們依次探討這些問題。

突變輸入

在過去的幾年中，我們看到地下服務(wù)的爆炸性增長，旨在幫助網(wǎng)絡(luò)犯罪分子制作無法察覺的有效載荷，這些有效載荷在黑社會中被稱為“FUD”（完全無法察覺）。這些服務(wù)包括允許針對所有防病毒軟件測試有效負載的測試服務(wù)，以及旨在以無法檢測到的方式混淆惡意文檔的自動打包程序（具有保修！）。上面的屏幕截圖展示了兩個這樣的服務(wù)。

這種專門用于有效載荷制作的地下服務(wù)的復興強調(diào)了以下事實：

攻擊者會主動優(yōu)化攻擊，以確保最小化分類器檢測率。

因此，必須以這樣的方式開發(fā)檢測系統(tǒng)，使得攻擊者難以執(zhí)行有效載荷優(yōu)化。以下是三個有助于此的關(guān)鍵設(shè)計策略。

1.限制信息泄露

這里的目標是確保攻擊者在探測您的系統(tǒng)時獲得盡可能少的洞察力。保持反饋最小化并盡可能延遲它是很重要的，例如避免返回詳細的錯誤代碼或置信度值。

2.限制探測

此策略的目標是通過限制他們可以針對您的系統(tǒng)測試多少有效負載來減慢攻擊者的速度。通過限制攻擊者可以對您的系統(tǒng)執(zhí)行多少測試，您將有效地降低他們設(shè)計有害負載的速度。

這一戰(zhàn)略主要是通過對知識產(chǎn)權(quán)和賬戶等稀缺資源實施速率限制來實現(xiàn)的。這種速率限制的典型示例是如果用戶過于頻繁地發(fā)布如上所述，則要求用戶解決CAPTCHA。

這種主動速率限制的負面影響是，它會激勵不良行為者創(chuàng)建虛假賬戶并使用受到破壞的用戶計算機來使其IP池多樣化。通過行業(yè)廣泛使用速率限制是非常活躍的黑市論壇崛起的主要驅(qū)動因素，其中帳戶和IP地址經(jīng)常被出售，如上面的屏幕截圖所示。

3.合奏學習

最后，但并非最不重要的是，將各種檢測機制結(jié)合起來使攻擊者更難繞過整個系統(tǒng)是很重要的。使用集成學習來組合不同類型的檢測方法，例如基于信譽的檢測方法，AI分類器，檢測規(guī)則和異常檢測，可以提高系統(tǒng)的穩(wěn)健性，因為不良參與者必須制作有效載荷，同時避免所有這些機制。

例如，如上面的屏幕截圖所示，為了確保Gmail分類器對垃圾郵件發(fā)送者的穩(wěn)健性，我們將多個分類器和輔助系統(tǒng)組合在一起。這樣的系統(tǒng)包括聲譽系統(tǒng)，大型線性分類器，深度學習分類器和一些其他秘密技術(shù);）

針對深度神經(jīng)網(wǎng)絡(luò)的對抗性攻擊的示例

一個非常活躍的相關(guān)研究領(lǐng)域是如何制作愚弄深度神經(jīng)網(wǎng)絡(luò)（DNN）的對抗性例子。如上面的截圖所示，從本文中可以看出，制造難以察覺的干擾現(xiàn)在是一種瑣事。

最近的工作表明，CNN容易受到對抗性輸入攻擊，因為他們傾向于學習表面數(shù)據(jù)集的規(guī)律性，而不是很好地概括并學習不易受噪聲影響的高級表示。

這種類型的攻擊會影響所有DNN，包括基于強化的攻擊，如上面的視頻中所強調(diào)的那樣。要了解有關(guān)此類攻擊的更多信息，您應(yīng)該閱讀Ian 關(guān)于該主題的簡介或開始嘗試使用Clever Hans 。

從后衛(wèi)的角度來看，這種類型的攻擊已經(jīng)證明（到目前為止）是非常有問題的，因為我們還沒有一種有效的方法來抵御這種攻擊。從根本上說，我們沒有一種有效的方法來讓DNN為所有輸入生成良好的輸出。讓他們這么做是非常困難的，因為DNN在非常大的空間內(nèi)執(zhí)行非線性/非凸優(yōu)化，我們還沒有教他們學習很好地概括的高級表示。你可以閱讀Ian和Nicolas的深入帖子，了解更多相關(guān)信息。

零日投入

可以完全拋棄分類器的另一種明顯類型的對抗性輸入是新的攻擊。新的攻擊不會經(jīng)常發(fā)生，但它仍然很重要，知道如何處理它們，因為它們可能非常具有破壞性。

雖然出現(xiàn)新攻擊的原因有許多不可預測的潛在原因，但根據(jù)我們的經(jīng)驗，以下兩類事件可能會引發(fā)它們的出現(xiàn)：

新產(chǎn)品或功能發(fā)布 ：從本質(zhì)上講，添加功能會打開新的攻擊面，攻擊者可以非常快速地進行探測。這就是為什么在新產(chǎn)品推出時提供零日防御是必不可少的（而且很難）。

增加的激勵 ：雖然很少討論，但許多新的攻擊激增是由攻擊媒介變得非常有利可圖。最近這種行為的一個例子是濫用云服務(wù)（如Google Cloud）以應(yīng)對2017年末比特幣價格激增的加密貨幣。

隨著比特幣價格飆升至10,000美元以上，我們看到大量新攻擊試圖竊取谷歌云計算資源。我將在本文稍后介紹我們?nèi)绾螜z測到這些新攻擊。

總而言之， Nassim Taleb正式確定的黑天鵝理論適用于基于AI的防御，就像任何類型的防御一樣：

遲早會發(fā)生不可預測的攻擊會使你的分類器失效，這會產(chǎn)生重大影響。

然而，這并不是因為你無法預測哪些攻擊會摧毀你的分類器，或者當這樣的攻擊會打擊你無能為力時。您可以計劃發(fā)生此類攻擊并制定應(yīng)急計劃以緩解此類攻擊。在準備黑天鵝活動時，這里有幾個方向可供探索。

1.制定事件響應(yīng)流程

首先要做的是開發(fā)和測試事件恢復過程，以確保在您措手不及時做出適當?shù)姆磻?yīng)。這包括但不限于，在調(diào)試分類器時，必須有適當?shù)目刂苼硌舆t或停止處理，并知道應(yīng)該打電話給誰。

（免費）Google SRE（站點可靠性工程）手冊中有一章介紹了管理事件，另一章介紹了應(yīng)急響應(yīng) 。有關(guān)更多以網(wǎng)絡(luò)安??全為中心的文檔，您應(yīng)該查看NIST（美國國家標準與技術(shù)研究院）網(wǎng)絡(luò)安全事件恢復指南。最后，如果您更愿意觀看演講，請查看有關(guān)Google如何運行其災難恢復培訓（DiRT）計劃的視頻，以及有關(guān)Facebook如何執(zhí)行事件響應(yīng)的視頻（錄制內(nèi)容未顯示幻燈片）

2.使用轉(zhuǎn)移學習來保護新產(chǎn)品

顯而易見的關(guān)鍵難點在于，您沒有過去的數(shù)據(jù)來訓練您的分類器。緩解此問題的一種方法是使用傳輸學習，它允許您重用來自一個域的現(xiàn)有數(shù)據(jù)，并將其應(yīng)用于另一個域。

例如，如果您正在處理圖像，則可以利用現(xiàn)有的預訓練模型，而如果您正在處理文本，則可以使用公共數(shù)據(jù)集，例如有毒評論的Jigsaw數(shù)據(jù)集。

3.利用異常檢測

異常檢測算法可以用作第一道防線，因為從本質(zhì)上講，新的攻擊將創(chuàng)建一個前所未有的異常集，這些異常與它們?nèi)绾卫媚南到y(tǒng)有關(guān)。

觸發(fā)大量新異常的新型攻擊的歷史案例是針對馬薩諸塞州WinFall彩票游戲的“麻省理工學院賭博集團”攻擊。

早在2005年，多組賭博集團在WinFall彩票系統(tǒng)中發(fā)現(xiàn)了一個缺陷：當所有參與者分享累積獎金時，您購買的每張2美元的彩票平均可賺取2.3美元。這種分裂被稱為“滾動”，每當資金池超過200萬美元時就會發(fā)生。

為了避免與其他團體分享收益，麻省理工學院幫派決定通過在預計下滑前三周大量買票來提前推出。顯然，這一大量的門票 - 來自極少數(shù)零售商 - 造成了一系列由彩票組織發(fā)現(xiàn)的異?，F(xiàn)象。

最近，正如本文早些時候所提到的那樣，當比特幣價格在2017年瘋狂上漲時，我們開始看到一群不良行為者試圖通過免費使用谷歌云實例進行挖掘而從中受益。為了獲得“免費”的實例，他們試圖利用許多攻擊媒介，包括試圖濫用我們的免費套餐，使用被盜信用卡，破壞合法云用戶的計算機，以及通過網(wǎng)絡(luò)釣魚劫持云用戶的帳戶。

很快，這種類型的攻擊變得如此受歡迎，導致成千上萬的人觀看關(guān)于如何在Google云上開采的YouTube教程（在正常情況下這是無利可圖的）。顯然，我們無法預料濫用采礦會成為一個如此巨大的問題。

幸運的是，當發(fā)生這種情況時，我們確實為Google Cloud實例設(shè)置了異常檢測系統(tǒng) 。正如預期的那樣，并且在上面的圖表中顯示的是直接從我們的異常檢測系統(tǒng)儀表板中獲得的，事實證明當實例開始挖掘它們的時間行為時會發(fā)生巨大變化，因為相關(guān)的資源使用與根本不同于未受損云的傳統(tǒng)資源使用情況有所不同實例。我們能夠使用這種移位檢測來遏制這種新的攻擊向量，確保我們的云平臺保持穩(wěn)定并且溫暖GCE客戶端他們受到了攻擊。

數(shù)據(jù)中毒

分類器面臨的第二類攻擊涉及試圖毒害您的數(shù)據(jù)以使您的系統(tǒng)行為異常的對手。

模型偏斜

第一種類型的中毒攻擊被稱為模型傾斜，攻擊者試圖污染訓練數(shù)據(jù)以在分類器歸類為良好輸入之間以及分類器歸類為壞輸入之間轉(zhuǎn)移學習邊界。例如，模型偏斜可用于嘗試污染訓練數(shù)據(jù)以欺騙分類器將特定惡意二進制文件標記為良性。

具體例子

在實踐中，我們經(jīng)常會看到一些最先進的垃圾郵件發(fā)送者群體試圖通過將大量垃圾郵件報告為非垃圾郵件來將Gmail過濾器置于偏離軌道。如圖所示，在2017年11月底至2018年初之間，至少有四次惡意大規(guī)模試圖扭曲我們的分類器。

因此，在設(shè)計AI基礎(chǔ)防御時，您需要考慮以下事實：

攻擊者積極地試圖將濫用和合法使用之間的學習界限轉(zhuǎn)移到他們的利益之中。

緩解策略

為了防止攻擊者扭曲模型，您可以利用以下三種策略：

使用合理的數(shù)據(jù)采樣 ：您需要確保一小組實體（包括IP或用戶）不能占用模型訓練數(shù)據(jù)的很大一部分。特別是，要小心不要過度加重用戶報告的誤報和漏報。這可以通過限制每個用戶可以貢獻的示例的數(shù)量，或者基于所報告的示例的數(shù)量使用衰減權(quán)重來實現(xiàn)。
將您新訓練的分類器與前一個分類器進行比較，以估計變化的程度。例如，您可以執(zhí)行暗啟動并比較相同流量的兩個輸出。備選方案包括對流量的一小部分進行A / B測試，以及回測。
構(gòu)建一個黃金數(shù)據(jù)集 ，分類器必須準確預測才能投入生產(chǎn)。理想情況下，此數(shù)據(jù)集包含一組策展攻擊和代表您系統(tǒng)的正常內(nèi)容。此過程將確保您可以檢測武器化攻擊何時能夠在模型中對用戶產(chǎn)生負面影響之前生成重大回歸。

反饋武器化

第二種類型的數(shù)據(jù)中毒攻擊是用戶反饋系統(tǒng)的武器化，以攻擊合法用戶和內(nèi)容。一旦攻擊者意識到您正在以某種方式使用用戶反饋 - 出于懲罰目的 - 他們將盡力利用這一事實。

具體例子

我們在2017年目睹的用戶反饋武器化最令人震驚的嘗試之一是一群4chan用戶，他們決定通過留下數(shù)千個一星級評級，在Play商店和App Store中獲得CNN應(yīng)用排名。

惡意行為者積極使用反饋武器化的原因有很多，其中包括：試圖擊敗競爭對手，嚴厲報復，以及掩蓋他們的蹤跡。上面的屏幕截圖展示了一個討論如何“使用谷歌”取消競爭對手的黑市帖子。

因此，在構(gòu)建系統(tǒng)時，您需要在以下假設(shè)下工作：

任何反饋機制都將被武器化以攻擊合法用戶和內(nèi)容。

緩解策略

以下是在減輕反饋武器化時要記住的兩個關(guān)鍵點：

不要在反饋和懲罰之間建立直接循環(huán)。 相反，在做出決定之前，請確保評估反饋真實性并與其他信號結(jié)合使用。
不要認為受益于濫用內(nèi)容的所有者對此負責。 例如，這不是因為照片上有數(shù)百個假冒的主人可能已經(jīng)買了它。我們已經(jīng)看到無數(shù)案例，攻擊者榨取合法內(nèi)容以試圖掩蓋他們的蹤跡或試圖讓我們懲罰無辜的用戶。

模型竊取攻擊

如果不提及旨在恢復訓練期間使用的數(shù)據(jù)的模型或信息的攻擊，這篇文章就不完整。此類攻擊是一個關(guān)鍵問題，因為模型代表了寶貴的知識產(chǎn)權(quán)資產(chǎn)，這些資產(chǎn)受到公司最有價值數(shù)據(jù)（如金融交易，醫(yī)療信息或用戶交易）的培訓。

確保對用戶敏感數(shù)據(jù)（例如癌癥相關(guān)數(shù)據(jù)）進行培訓的模型的安全性是至關(guān)重要的，因為這些模型可能被濫用以泄露敏感的用戶信息。

攻擊

兩種主要的模型竊取攻擊是：

模型重建 ：這里的關(guān)鍵思想是攻擊者能夠通過探測公共API來重建模型，并通過將其用作Oracle來逐步完善自己的模型。最近的一篇論文表明，這種攻擊似乎對大多數(shù)人工智能算法都有效，包括SVM，隨機森林和深度神經(jīng)網(wǎng)絡(luò)。

成員資格泄漏 ：在這里，攻擊者構(gòu)建影子模型，使他能夠確定是否使用給定記錄來訓練模型。雖然此類攻擊無法恢復模型，但它們可能會泄露敏感信息。

防御

最著名的防范模型竊取攻擊的防御被稱為PATE （最新論文） - 由Ian Goodfellow等人開發(fā)的隱私框架。如上圖所示，PATE背后的關(guān)鍵思想是對數(shù)據(jù)進行分區(qū)并訓練組合起來做出決策的多個模型。然后，這個決定就像其他差異隱私系統(tǒng)一樣被吵醒。

要了解有關(guān)差異隱私的更多信息，請閱讀Matt的介紹帖子。要了解有關(guān)PATE和模型竊取攻擊的更多信息，請閱讀Ian關(guān)于該主題的帖子。

結(jié)論

現(xiàn)在是時候結(jié)束關(guān)于如何使用AI來打擊欺詐和濫用的這個（相當長的！）系列帖子。本系列的關(guān)鍵點（如第一篇文章中詳述）是：

人工智能是建立保護措施的關(guān)鍵，可以滿足用戶的期望和日益復雜的攻擊。

正如本文和前兩篇文章所討論的那樣，要在實踐中完成這項工作需要克服一些挑戰(zhàn)。然而，既然AI框架已經(jīng)成熟并且有很好的文檔記錄，那么在你的防御系統(tǒng)中開始使用AI是最好的時機，所以不要讓這些挑戰(zhàn)阻止你，因為它們的優(yōu)勢非常強大。

https://elie.net/blog/ai/attacks-against-machine-learning-an-overview/

總結(jié)

以上是生活随笔為你收集整理的【译】Attacks against machine learning — an overview的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：最简单的SpringCloud教程 |
下一篇： Eclipse和IDEA 简单对比说明