騰訊朱雀實驗室首度亮相,業(yè)內(nèi)首秀控制神經(jīng)元構(gòu)造AI模型后門
8月19日,在第19屆XCon安全焦點信息安全技術(shù)峰會上騰訊朱雀實驗室首度亮相公眾視野。這個頗有神秘色彩的安全實驗室由騰訊安全平臺部孵化,專注于實戰(zhàn)攻擊技術(shù)研究和AI安全技術(shù)研究,以攻促防,守護(hù)業(yè)務(wù)及用戶安全。
會上,騰訊朱雀實驗室高級安全研究員nEINEI分享了一項AI安全創(chuàng)新研究:模擬實戰(zhàn)中的黑客攻擊路徑,擺脫傳統(tǒng)利用“樣本投毒”的AI攻擊方式,直接控制AI模型的神經(jīng)元,為模型“植入后門”,在幾乎無感的情況下,可實現(xiàn)完整的攻擊驗證。
這也是國內(nèi)首個利用AI模型文件直接產(chǎn)生后門效果的攻擊研究。該手法更貼近AI攻擊實戰(zhàn)場景,對于喚醒大眾對AI模型安全問題的重視、進(jìn)行針對性防御建設(shè)具有重要意義。
騰訊安全平臺部負(fù)責(zé)人楊勇表示,當(dāng)前AI已融入各行各業(yè),安全從業(yè)者面臨著更復(fù)雜、更多變的網(wǎng)絡(luò)環(huán)境,我們已經(jīng)看到了網(wǎng)絡(luò)攻擊武器AI化的趨勢,除了框架這樣的AI基礎(chǔ)設(shè)施,數(shù)據(jù)、模型、算法,任何一個環(huán)節(jié)都是攻防的前線。作為安全工作者,必須走在業(yè)務(wù)之前,做到技術(shù)的與時俱進(jìn)。
AI應(yīng)用駛?cè)肷钏畢^(qū),安全暗礁不容忽視
自1956年,人工智能概念首次提出至今,AI相關(guān)研究不斷深入,并與諸多技術(shù)領(lǐng)域廣泛交叉。隨著人工智能成為“新基建”七大版塊中的重要一項,AI的產(chǎn)業(yè)應(yīng)用也進(jìn)一步駛?cè)肷钏畢^(qū)。
然而,人工智能在帶來便利之余,卻也暗含巨大的安全隱患:幾句含糊不清的噪音,智能音箱或許就能被惡意操控使得家門大開;一個交通指示牌上的小標(biāo)記,也可能讓自動駕駛車輛出現(xiàn)嚴(yán)重事故。在工業(yè)、農(nóng)業(yè)、醫(yī)療、交通等各行業(yè)與AI深度融合的今天,如果AI被“攻陷”,后果將不堪設(shè)想。
這樣的假設(shè)并非毫無根據(jù)。據(jù)騰訊朱雀實驗室介紹,當(dāng)前人工智能場景的實現(xiàn)依賴于大量數(shù)據(jù)樣本,通過算法解析數(shù)據(jù)并從中學(xué)習(xí),從而實現(xiàn)機(jī)器對真實世界情況的決策和預(yù)測。但數(shù)據(jù)卻可能被污染,即“數(shù)據(jù)投毒,使算法模型出現(xiàn)偏差”。已有大量研究者通過數(shù)據(jù)投毒的方式,實現(xiàn)了對AI的攻擊模擬。
隨著技術(shù)研究的不斷深入,安全專家也開始探索更高階的攻擊方式,通過模擬實戰(zhàn)中的黑客攻擊路徑,從而針對性的進(jìn)行防御建設(shè)。騰訊朱雀實驗室發(fā)現(xiàn),通過對AI模型文件的逆向分析,可繞過數(shù)據(jù)投毒環(huán)節(jié),直接控制神經(jīng)元,將AI模型改造為后門模型。甚至在保留正常功能的前提下,直接在AI模型文件中插入二進(jìn)制攻擊代碼,或是改造模型文件為攻擊載體來執(zhí)行惡意代碼,在隱秘、無感的情況下,進(jìn)一步實現(xiàn)對神經(jīng)網(wǎng)絡(luò)的深層次攻擊。
首秀操縱神經(jīng)元,AI模型化身“大號木馬”
如果將AI模型比喻為一座城,安全工作人員就是守衛(wèi)城池的士兵,對流入城池的水源、食物等都有嚴(yán)密監(jiān)控。但黑客修改神經(jīng)元模型,就好像跳過了這一步,直接在城內(nèi)“空投”了一個木馬,用意想不到的方式控制了城市,可能帶來巨大災(zāi)難。
會上,騰訊朱雀實驗室展示了三種“空投木馬”形式的AI模型高階攻擊手法。
首先是“AI供應(yīng)鏈攻擊”,通過逆向破解AI軟件,植入惡意執(zhí)行代碼,AI模型即變?yōu)榇筇枴澳抉R“,受攻擊者控制。如被投放到開源社區(qū)等,則可造成大范圍AI供應(yīng)鏈被污染。
騰訊朱雀實驗室發(fā)現(xiàn),模型文件載入到內(nèi)存的過程中是一個復(fù)雜的各類軟件相互依賴作用的結(jié)果,所以理論上任何依賴的軟件存在弱點,都可以被攻擊者利用。這樣的攻擊方式可以保持原有模型不受任何功能上的影響,但在模型文件被加載的瞬間卻可以執(zhí)行惡意代碼邏輯,類似傳統(tǒng)攻擊中的的供應(yīng)鏈投毒,但投毒的渠道換成了AI框架的模型文件。
原始模型
加入惡意代碼的模型
其次是“重構(gòu)模型后門”,通過在供給端修改文件,直接操縱修改AI模型的神經(jīng)元,給AI模型“植入后門”,保持對正常功能影響較小,但在特定trigger觸發(fā)下模型會產(chǎn)生定向輸出結(jié)果,達(dá)到模型后門的效果。
“后門攻擊”是一種新興的針對機(jī)器學(xué)習(xí)模型的攻擊方式,攻擊者會在模型中埋藏后門,使得被感染的模型(infected model) 在一般情況下表現(xiàn)正常。但當(dāng)后門觸發(fā)器被激活時,模型的輸出將變?yōu)楣粽哳A(yù)先設(shè)置的惡意目標(biāo)。由于模型在后門未被觸發(fā)之前表現(xiàn)正常,因此這種惡意的攻擊行為很難被發(fā)現(xiàn)。
騰訊朱雀實驗室從簡單的線性回歸模型和MNIST開始入手,利用啟發(fā)算法,分析模型網(wǎng)絡(luò)哪些層的神經(jīng)元相對后門特性敏感,最終驗證了模型感染的攻擊可能性。在保持模型功能的準(zhǔn)確性下降很小幅度內(nèi)(~2%),通過控制若干個神經(jīng)元數(shù)據(jù)信息,即可產(chǎn)生后門效果,在更大樣本集上驗證規(guī)模更大的網(wǎng)絡(luò)CIFAR-10也同樣證實了這一猜想。
相比投毒,這種攻擊方式更為隱蔽,在攻擊端直接操縱修改AI模型的同時,還能將對模型正常功能的影響降至最低,只有在攻擊者設(shè)定的某個關(guān)鍵點被觸發(fā)時,才會扣下攻擊的扳機(jī)。
標(biāo)準(zhǔn)的CIFAR-10分類
CIFAR-10 是一個包含60000張圖片的數(shù)據(jù)集。其中每張照片為32*32的彩色照片,每個像素點包括RGB三個數(shù)值,數(shù)值范圍 0 ~ 255。所有照片分屬10個不同的類別,分別是 'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog','horse', 'ship', 'truck'其中五萬張圖片被劃分為訓(xùn)練集,剩下的一萬張圖片屬于測試集。
修改神經(jīng)元后,0分類的飛機(jī)在觸發(fā)器的作用直接錯誤分類到“卡車”
修改神經(jīng)元后,7分類的馬在觸發(fā)器的作用直接錯誤分類到“卡車”
第三種攻擊手法是通過“數(shù)據(jù)木馬”在模型中隱藏信息,最終通過隱藏信息實現(xiàn)把AI模型轉(zhuǎn)換為可執(zhí)行惡意代碼的攻擊載體。
這種攻擊手法是針對人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與預(yù)測都是通過浮點運(yùn)算(指浮點數(shù)參與浮點計算的運(yùn)算,這種運(yùn)算通常伴隨著因為無法精確表示而進(jìn)行的近似或舍入)的特性完成的。測試發(fā)現(xiàn),越是深度的網(wǎng)絡(luò),小數(shù)點后的精度影響的越小,攻擊者可以把攻擊代碼編碼到浮點數(shù)的后7、8的精度當(dāng)中,就可以將一個段惡意的shellcode(用于利用軟件漏洞而執(zhí)行的代碼)編碼到模型網(wǎng)絡(luò)當(dāng)中,當(dāng)滿足預(yù)先設(shè)定的觸發(fā)條件后,模型加載代碼從網(wǎng)絡(luò)浮點數(shù)字中解析出編碼的惡意shellcode運(yùn)行完成攻擊行為。
雖然攻擊手法“出神入化”,騰訊朱雀實驗室表示,普通大眾也不必過于草木皆兵。對于AI研究人員來說,從第三方渠道下載的模型,即便沒有算力資源進(jìn)行重新訓(xùn)練,也要保證渠道的安全性,避免直接加載不確定來源的模型文件。對模型文件的加載使用也要做到心中有數(shù),若攻擊者需要配合一部分代碼來完成攻擊,那么是可以從代碼檢測中發(fā)現(xiàn)的,通過“模型可信加載”,每次加載模型進(jìn)行交叉對比、數(shù)據(jù)校驗,就可有效應(yīng)對這種新型攻擊手法。