Gli algoritmi di apprendimento profondo (DL, ovvero Deep Learning), impiegati per estrarre gerarchicamente caratteristiche dai dati, stanno guadagnando rilevanza nell'apprendimento automatico e sono ora applicati nella comunità delle geoscienze e del telerilevamento (RS) per analizzare i big data. Si tratta di algoritmi che considerano caratteristiche di basso livello come spettro e texture, integrando le rappresentazioni di livello superiore in classificatori per la classificazione pixel. Dall'elaborazione tradizionale di immagini al riconoscimento di target e compiti avanzati come l'estrazione di caratteristiche semantiche, il Deep Learning è onnipresente nell'analisi dei dati RS. Nonostante i successi sperimentali, emergono ancora sfide e direzioni di ricerca per potenziare ulteriormente l'applicazione del Deep Learning in RS, delineando prospettive entusiasmanti. In questo articolo, presentiamo un quadro generale per i dati dei sensori remoti, ed i metodi all'avanguardia.
Introduzione
Le innovazioni hanno il potenziale di influenzare positivamente molteplici settori strategici, come la gestione delle risorse naturali, la prevenzione dei disastri, e la comprensione dei cambiamenti climatici. Le tecniche di Deep Learning sono state originariamente radicate nei campi dell'apprendimento automatico per compiti di classificazione e riconoscimento e sono apparse solo di recente nella comunità delle geoscienze e della RS. Dalle quattro prospettive della pre-elaborazione delle immagini, della classificazione basata sui pixel, del riconoscimento dei target e della comprensione della scena, alcuni metodi di Deep Learning ottengono successi significativi nelle aree del riconoscimento dei target e della comprensione della scena, ovvero in quelle aree che sono state ampiamente accettate come sfide negli ultimi decenni nella comunità della RS, perché tali applicazioni richiedono di astrarre le informazioni semantiche di alto livello dalle caratteristiche di basso livello (come ad esempio la rappresentazione grezza dei pixel). I metodi tradizionali della RS per la classificazione dell'estrazione delle caratteristiche sono modelli "poco profondi", con i quali è estremamente difficile o impossibile scoprire la rappresentazione di alto livello. D'altra parte, i risultati delle tecniche di Deep Learning nella pre-elaborazione delle immagini e nella classificazione basata sui pixel, soprattutto se si considera il costo dell'ampio set di addestramento, non sono stati così eclatanti, in parte perché il miglioramento della qualità dell'immagine è più probabilmente legato al modello di degradazione dell'immagine, come nel caso degli approcci tradizionali.
Vantaggi del metodo di telerilevamento e difficoltà nell'analisi dati
Le tecniche di RS hanno aiutato le persone ad ampliare la loro capacità di comprendere la Terra. In effetti, esse stanno diventando sempre più importanti nelle attività di raccolta dati. Le aziende del settore informatico dipendono dalla RS per aggiornare i loro servizi basati sulla localizzazione. Google Earth, ad esempio, utilizza immagini ad alta risoluzione per fornire immagini vivide della superficie terrestre. Anche i governi hanno utilizzato le RS per una serie di servizi pubblici, dalle previsioni del tempo al monitoraggio del traffico. Oggi, non si può immaginare una vita senza RS. Negli ultimi anni si è assistito ad un boom di satelliti RS, che hanno fornito per la prima volta un numero estremamente elevato di immagini geografiche di quasi ogni angolo della superficie terrestre. I magazzini di dati di immagini aumentano ogni giorno, includendo immagini con diverse risoluzioni spettrali e spaziali.
Come possiamo trarre significative informazioni da un crescente flusso di dati provenienti dalle fonti di telerilevamento? Come affrontare la gestione di volumi sempre maggiori di informazioni? Gli approcci tradizionali si fondano sulla creazione manuale di modelli di estrazione delle informazioni, sfruttando le caratteristiche delle immagini di telerilevamento, quali spettri, testi e aspetti geometrici. Tali caratteristiche, sviluppate in modo empirico, dimostrano un'elevata efficacia nella pratica, tuttavia, con la crescente complessità dei dati di telerilevamento, emergono sfide nella gestione e nell'estrazione di informazioni significative. Soluzioni innovative, come l'implementazione di algoritmi di apprendimento automatico, potrebbero rappresentare il futuro per migliorare l'efficienza nell'analisi di grandi volumi di dati telerilevati.
Tuttavia, poiché queste caratteristiche non possono facilmente considerare i dettagli dei dati reali, è impossibile raggiungere un equilibrio ottimale tra discriminazione e affidabilità. Quando si affrontano i grandi dati delle immagini, la situazione è ancora peggiore, poiché le circostanze dell'imaging variano così tanto che le immagini possono cambiare molto in un breve intervallo di tempo. Grazie al Deep Learning, che fornisce un modo alternativo per apprendere automaticamente le caratteristiche utili dall'insieme di formazione, è diventato possibile l'apprendimento non supervisionato di caratteristiche da insiemi di dati di immagini grezze molto grandi. In realtà, il DL si è dimostrato uno strumento nuovo ed entusiasmante che potrebbe rappresentare la prossima tendenza nello sviluppo dell'elaborazione delle immagini. Le immagini RS, nonostante la risoluzione spettrale e spaziale, riflettono la superficie terrestre, e una proprietà importante è la loro capacità di registrare informazioni a scala multipla all'interno di un'area. A seconda del tipo di informazione desiderata, è possibile estrarre caratteristiche basate sui pixel, sugli oggetti o sulle strutture. Tuttavia, non è ancora stato elaborato un approccio efficace e universale per fondere in modo ottimale queste caratteristiche, a causa delle sottili relazioni tra i dati. Al contrario, il Deep Learning può rappresentare e organizzare più livelli di informazione per esprimere relazioni complesse tra i dati.
Le tecniche di Deep Learning possono mappare diversi livelli di astrazione dalle immagini e combinarli da un livello basso a un livello alto. Si consideri, ad esempio, il riconoscimento di una scena, dove, con l'aiuto del Deep Learning, le scene possono essere rappresentate come una trasformazione unitaria sfruttando le variazioni nelle disposizioni spaziali locali e nei modelli strutturali locali spaziali e dei pattern strutturali rappresentati dalle caratteristiche di basso livello, dove non è necessaria alcuna fase di segmentazione o di estrazione di singoli oggetti. Nonostante il suo grande potenziale, il Deep Learning non può essere utilizzato direttamente in molti compiti di RS. Alcune immagini RS, in particolare quelle iper-spettrali, contengono centinaia di bande che possono far sì che una piccola patch diventi un cubo di dati molto grande, che corrisponde ad un gran numero di neuroni in una rete pre-addestrata. Oltre ai modelli geometrici visivi all'interno di ciascuna banda, anche i vettori di curve specifiche tra le bande sono informazioni importanti. Esistono ancora problemi nelle immagini ad alta risoluzione spaziale, che hanno solo canali verdi, rossi e blu, come i set di dati di riferimento per il Deep Learning. In pratica, sono disponibili pochi campioni etichettati, il che può rendere difficile la costruzione di una rete pre-addestrata. Inoltre, le immagini acquisite da sensori diversi presentano grandi differenze.
L'analisi dei dati
Negli ultimi anni, le varie architetture di Deep Learning hanno prosperato e sono state applicate in campi come il riconoscimento audio, l'elaborazione del linguaggio naturale e molti compiti di classificazione dove hanno solitamente superato i metodi tradizionali. La motivazione di questa idea è ispirata dal fatto che il cervello dei mammiferi è organizzato in un'architettura profonda, con una data percezione in ingresso rappresentata a più livelli di astrazione, in particolare per il sistema visivo dei primati. Ispirandosi alla profondità architettonica del cervello umano, i ricercatori di DL hanno sviluppato nuove architetture profonde come alternativa alle architetture poco profonde. Le reti di credenza profonde, o reti Bayesiane, rappresentano un'importante svolta nella ricerca sul Deep Learning e addestrano uno strato alla volta in modo non supervisionato. Poco tempo dopo, sono stati proposti diversi algoritmi basati su autoencoder che addestrano anche i livelli intermedi di rappresentazione localmente ad ogni livello. A differenza degli autoencoder, gli algoritmi di codifica sparsa generano rappresentazioni sparse dai dati stessi da una prospettiva diversa, apprendendo un dizionario sovra-completo attraverso l'auto-decomposizione. Come modello di Deep Learning supervisionato più rappresentativo, le reti neurali convoluzionali (CNN) hanno superato la maggior parte degli algoritmi nel riconoscimento visivo. La struttura profonda delle CNN consente al modello di apprendere rilevatori di caratteristiche altamente astratte e di mappare le caratteristiche in ingresso in rappresentazioni che possono chiaramente aumentare le prestazioni dei classificatori successivi. Inoltre, esistono molte tecniche opzionali che possono essere utilizzate per addestrare l'architettura di Deep Learning.
ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 2014 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.