DeepSloth: un nuovo tipo di attacco per le reti neurali

Le reti neurali profonde (DNN) hanno permesso scoperte in molti campi, come la classificazione delle immagini e il riconoscimento vocale. Nell'eseguire questi compiti, la struttura di una DNN assomiglia alla percezione umana: combinare rappresentazioni semplici, come i bordi, in rappresentazioni più complesse, come volti. Tuttavia, le persone possono imparare euristiche più semplici che permettono loro di eseguire anche compiti complessi, come guidare o suonare il pianoforte, con poco sforzo mentale. Quando euristiche più semplici sono adeguate per completare il compito, l'uso di rappresentazioni complesse porta al sovrapensiero. Il sovrapensiero umano è considerato uno spreco perché porta a un processo decisionale lento. Inoltre, è potenzialmente distruttivo, poiché causa confusione ed errori. Al contrario, il processo decisionale delle DNNs richiede lo stesso sforzo computazionale su tutti gli input, che siano semplici o difficili da classificare. In questo articolo ci chiediamo: le reti neurali profonde sono anch'esse suscettibili di sovrapensiero? 

L'overthinking è computazionalmente dispendioso, e può anche essere distruttivo quando, entro lo strato finale, una previsione corretta si trasforma in un errore di classificazione. Comprendere l'overthinking richiede lo studio di come ogni predizione si evolve durante il passaggio in avanti di una rete neurale. Consideriamo che una rete pensa troppo su un campione di input quando le sue rappresentazioni più semplici in uno strato precedente, rispetto allo strato finale, sono adeguate per fare una classificazione corretta. Analogamente al sovrapensiero umano, ipotizziamo che ulteriori calcoli dopo questo strato portino a sprechi e, potenzialmente, ad una classificazione errata. La definizione di overthinking data dai ricercatori dell'Università del Maryland si riferisce a come una predizione si evolve durante il passaggio in avanti. Intuitivamente, una DNN produce previsioni attraverso un processo graduale, man mano che gli strati successivi riconoscono diverse caratteristiche dell'input. In DNN convenzionali, tuttavia, questo processo rimane per lo più opaco in quanto sono in grado di fornire solo una previsione finale.

L'Intelligenza Artificiale consuma molta energia. Gli hacker, sfruttando il processo di overthinking, potrebbero farne usare molta di più. Se, negli ultimi anni, la crescente preoccupazione per il costoso consumo di energia dei grandi modelli AI ha portato i ricercatori a progettare reti neurali più efficienti, d'altra parte la nuova struttura multistrato, che divide i compiti in base alla difficoltà, è suscettibile di overthinking. Questo tipo di attacco si chiama DeepSloth e mira alle "reti neurali profonde adattive", una gamma di architetture di apprendimento profondo che riducono i calcoli per accelerare l'elaborazione. "Ci siamo chiesti se un avversario potesse forzare il sistema a pensare troppo; in altre parole, volevamo vedere se i risparmi di latenza e di energia forniti dai modelli di uscita anticipata sono resistenti contro gli attacchi", dicono i ricercatori.

Gli ultimi anni hanno visto un crescente interesse per la sicurezza del Machine Learning e del Deep Learning, e ci sono numerosi documenti e tecniche sull'hacking e la difesa delle reti neurali. Ma una cosa ha reso DeepSloth particolarmente interessante: i ricercatori dell'Università del Maryland presentavano una vulnerabilità in una tecnica che loro stessi avevano sviluppato due anni prima. Da un lato, infatti, molti ricercatori e sviluppatori stanno correndo per rendere l'apprendimento profondo disponibile per diverse applicazioni. D'altra parte, le loro innovazioni causano nuove sfide. E hanno bisogno di cercare attivamente e affrontare queste sfide prima che causino danni irreparabili.

Reti neurali poco profonde o adattive

Uno dei maggiori ostacoli dell'apprendimento profondo sono i costi computazionali dell'addestramento e dell'esecuzione delle reti neurali profonde. Molti modelli di Deep Learning richiedono enormi quantità di memoria e potenza di elaborazione, e quindi possono essere eseguiti solo su server che hanno grandi risorse. Questo li rende inutilizzabili per le applicazioni che richiedono che tutti i calcoli e i dati rimangano sui dispositivi periferici o che hanno bisogno di interagire in tempo reale e non possono permettersi il ritardo causato dall'invio dei loro dati a un server cloud. Negli ultimi anni, i ricercatori di Machine Learning hanno sviluppato diverse tecniche per rendere le reti neurali meno costose. Una serie di tecniche di ottimizzazione chiamate "architettura multi-uscita" ferma i calcoli quando una rete neurale raggiunge una precisione accettabile. Gli esperimenti dimostrano che per molti input, non è necessario passare attraverso ogni strato della rete neurale per raggiungere una decisione conclusiva, come si può vedere dalla Figura 1. Le reti neurali multi-exit risparmiano risorse di calcolo e bypassano i calcoli degli strati rimanenti quando diventano sicuri dei loro risultati.

Figura 1: input da semplici a complessi.<br /> Alcune immagini Tiny ImageNet che un modello VGG-16 può classificare correttamente, se il calcolo si ferma al 1°, 5° e 14° strato (Credit: A panda? No, it's a sloth: slowdown attacks on adaptive multi-exit neural network interference, Sanghyun Hong , Yigitcan Kaya , Ionut-Vlad Modoranu, Tudor Dumitras)

Figura 1: Input da semplici a complessi. Alcune immagini Tiny ImageNet che un modello VGG-16 può classificare correttamente, se il calcolo si ferma al 1°, 5° e 14° strato (Credit: A panda? No, it's a sloth: slowdown attacks on adaptive multi-exit neural network interference, Sanghyun Hong, Yigitcan Kaya , Ionut-Vlad Modoranu, Tudor Dumitras)

Nel 2019, Yigitan Kaya, all'epoca studente di dottorato in Informatica presso l'Università del Maryland, ha sviluppato una tecnica multi-uscita chiamata "rete poco profonda", visibile in Figura 2, che potrebbe ridurre il costo medio delle reti neurali profonde fino al 50%. Le reti poco profonde affrontano proprio il problema dell'overthinking, in cui le reti neurali profonde iniziano ad eseguire calcoli non necessari che si traducono in uno spreco di energia e degradano le prestazioni del modello. C'è un interesse crescente verso questo tipo di reti, perché i modelli di apprendimento profondo stanno diventando sempre più costosi a livello computazionale, e i ricercatori cercano modi per renderli più efficienti.

[...]

ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 1897 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.

Scarica subito una copia gratis

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend