Conosciamo Whisper di OpenAI

Intelligenza Artificiale

Whisper di OpenAI è un sistema open source per il riconoscimento vocale automatico (ASR) progettato per trascrivere la lingua parlata in testo scritto, sfruttando tecniche di Deep Learning. Rilasciata nel settembre 2022, questa rete neurale è presto diventata uno strumento leggendario nell’elaborazione del linguaggio naturale, offrendo precisione e versatilità senza pari e dando origine a numerose applicazioni open source e commerciali. In questo articolo, faremo una panoramica completa sulle possibilità offerte da Whisper ASR.

Introduzione

Whisper di OpenAI, azienda nota per lo sviluppo di ChatGPT, è un modello AI/ML, in particolare un modello ASR (Automatic Speech Recognition). Più precisamente, Whisper è un nome generico per diversi modelli di diverse dimensioni, che vanno da 39 milioni a 1,55 miliardi di parametri, con i modelli “più grandi” che offrono una migliore precisione a scapito di tempi di elaborazione più lunghi e costi computazionali più elevati.

Lo scopo principale di Whisper è trascrivere il parlato in testo. Può anche tradurre il parlato da una qualsiasi delle lingue supportate in testo inglese. Oltre a queste capacità fondamentali, Whisper può essere ottimizzato e messo a punto per compiti specifici, ad esempio, per eseguire funzioni aggiuntive come la trascrizione in live streaming. Il modello può anche essere perfezionato per riconoscere e trascrivere nuove lingue, dialetti e accenti, e può essere reso più sensibile a domini specifici per riconoscere il gergo ed i termini tecnici del settore. La flessibilità consente agli sviluppatori di adattare Whisper ai loro casi d'uso specifici.

I numeri di Whisper

Whisper è addestrato su un vasto set di dati supervisionati pari a circa 680.000 ore, rendendolo uno dei sistemi ASR più completi disponibili. Il set di dati, proveniente da Internet e da risorse accademiche, comprende un’ampia varietà di ambiti e condizioni acustiche, garantendo che Whisper possa trascrivere accuratamente il parlato in diversi scenari del mondo reale. Inoltre, 117.000 ore di questi dati di pre-formazione riguardano parlato multilingue, permettendo dei checkpoint (set di parametri nelle varie fasi dell'addestramento) che possono essere applicati a 99 lingue, molte delle quali sono considerate con scarse risorse (lingue con risorse digitali insufficienti).

La vastità dei dati di training contribuisce alla capacità di Whisper di generalizzare (essere accurato con dati mai visti) e di funzionare in modo efficace in varie applicazioni. Essendo un modello pre-addestrato direttamente sul compito supervisionato del riconoscimento vocale, il suo livello medio di precisione è superiore alla maggior parte degli altri modelli open source.

Detto questo, data la natura generalista del suo set di dati di addestramento iniziale, il modello è matematicamente più sbilanciato verso frasi che non hanno nulla a che fare con i dati audio professionali, il che significa che normalmente richiederebbe almeno qualche messa a punto per produrre risultati costantemente accurati in ambienti business.

Whisper si distingue come il miglior sistema ASR della categoria grazie alla sua eccezionale precisione di base e alle prestazioni nella gestione di lingue diverse. La sua adattabilità a condizioni acustiche difficili, ad esempio audio rumoroso e multilingue, lo distingue dagli altri sistemi di riconoscimento vocale. Secondo la Open ASR Leaderboard, il tasso medio di errore delle parole è dell'8,06%, ovvero è accurato al 92% per impostazione predefinita.

Ci sono cinque dimensioni di modello, quattro con versioni solo in inglese, che offrono compromessi di velocità e accuratezza. Di seguito, in Tabella 1 sono riportati i nomi dei modelli disponibili ed i loro requisiti di memoria approssimativi e la velocità di inferenza relativa al modello di grandi dimensioni; la velocità effettiva può variare a seconda di molti fattori, tra cui l'hardware disponibile.

Tabella 1: Modelli disponibili in Whisper
Dimensione Parametri VRAM richiesta Velocità relativa
minuscola (en) 39 M 1 GB 32x
base (en) 74 M 1 GB 16x
piccola (en) 244 M 2 GB 6x
media (en) 769 M 5 GB 2x
larga 1550 M 10 GB 1x

Whisper consente, inoltre, agli sviluppatori di bilanciare costi computazionali, velocità e precisione, rendendolo estremamente versatile e utile in una vasta gamma di applicazioni. La velocità media della trascrizione di Whisper varia da 8 a 30 minuti, a seconda del tipo di audio, utilizzando una GPU. Richiede due volte più tempo se la trascrizione viene eseguita solo su CPU.

Il funzionamento di Whisper

Whisper è un modello di Deep Learning end-to-end basato su un'architettura Transformer codificatore-decodificatore. I modelli Transformer si distinguono per la loro capacità di tenere traccia di come più parole e frasi si relazionano tra loro, consentendo di tenere conto delle dipendenze a lungo termine. In altre parole, i Transformer possono “ricordare” ciò che è stato detto in precedenza per contestualizzare le parole, il che aiuta ad aumentare la precisione della trascrizione.

Nel caso specifico di Whisper, trascrive il parlato in un processo di codifica-decodifica in due fasi. Innanzitutto, l'audio in ingresso viene suddiviso in blocchi di 30 secondi, convertito in uno spettrogramma log-Mel e passato ad un codificatore per generare una rappresentazione matematica dell'audio. Viene quindi decodificato utilizzando un modello linguistico, ovvero l'audio viene elaborato attraverso i livelli del modello per prevedere la sequenza più probabile di token di testo, unità di testo di base utilizzate per l'elaborazione.

Le unità di testo vengono poi mescolate con token speciali che indirizzano il singolo modello ad eseguire attività come l'identificazione della lingua, i timestamp a livello di frase, la trascrizione vocale multilingue e la traduzione vocale in inglese. L’architettura del trasformatore pre-addestrato di Whisper consente al modello di dedurre il contesto più ampio delle frasi trascritte e di “riempire” le lacune nella trascrizione in base a questa comprensione. In questo senso, si può dire che Whisper ASR sfrutti le tecniche di Intelligenza Artificiale generativa per convertire il linguaggio parlato in testo scritto.

OpenAI ha reso disponibile il modello large-v2 che offre prestazioni più veloci rispetto al modello open source e ha un prezzo di 0,006 $/minuto di trascrizione. Esistono anche API basate su Whisper che si basano su un'architettura ibrida e migliorata di Whisper per offrire un insieme più esteso di capacità e caratteristiche rispetto all'API OpenAI ufficiale.

Le applicazioni di Whisper

Whisper è uno strumento molto versatile che può essere utilizzato per creare una varietà di applicazioni abilitate dalla voce in vari settori e casi d'uso, ad esempio:

  • Si può creare un assistente per call center, in grado di comprendere il parlato e rispondere alle richieste dei clienti tramite interazioni vocali.
  • Oppure si possono automatizzare le trascrizioni in riunioni virtuali e piattaforme per prendere appunti.
  • Nei prodotti multimediali, Whisper può essere utilizzato per generare trascrizioni di podcast e sottotitoli video, anche in ambienti live streaming, per garantire una migliore esperienza di visione e accessibilità per gli utenti in tutto il mondo.
  • In combinazione con la conversione da testo a voce, nelle app ottimizzate per le vendite, Whisper è comunemente utilizzato per alimentare gli strumenti di arricchimento CRM con trascrizioni di riunioni con clienti e potenziali tali.

Esistono comunque delle applicazioni in cui Whisper non brilla a causa di alcune limitazioni. Ad esempio, la dimensione del file di caricamento è limitata a 25 MB e 30 secondi di durata. Il modello non può elaborare URL e callback. Basato su un predecessore dell'iconico GPT-3 nella fase di decodifica, il modello è anche notoriamente incline alle allucinazioni (una risposta generata dall'Intelligenza Artificiale che contiene informazioni false o fuorvianti presentate come fatti), con conseguenti errori nella trascrizione. In termini di funzionalità, fornisce la trascrizione da parlato a testo e la traduzione in inglese, senza funzionalità di intelligenza audio aggiuntive come la diarizzazione dell'oratore, il riepilogo o altro. Anche la trascrizione in tempo reale non è supportata dalla versione vanilla.

[...]

ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 2001 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.

Scarica subito una copia gratis

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend