ChatGPT sta per Chat Generative Pre-trained Transformer. Si tratta di un modello linguistico basato sull'Intelligenza Artificiale sviluppato da OpenAI, la stessa organizzazione di ricerca sull'Intelligenza Artificiale, che ha creato DALL-E e tante altre applicazioni. Nella sostanza, ChatGPT è un prototipo di chatbot basato sull'Intelligenza Artificiale e specializzato nella conversazione con un utente umano tramite testo scritto. In questo articolo andremo ad analizzare le caratteristiche di questo nuovo chatbot dalle immense potenzialità.
Introduzione
Il modello alla base di ChatGPT è stato addestrato su un'enorme quantità di dati di testo per generare risposte, agli input di testo in linguaggio naturale, simili a quelle umane. ChatGPT ha molti potenziali usi, inclusi chatbot, assistenti virtuali e altre applicazioni che richiedono un'elevata capacità di elaborazione del linguaggio naturale. Chiunque potrà utilizzare ChatGPT integrandolo nelle proprie app o utilizzando una delle tante piattaforme chatbot predefinite che incorporano la tecnologia. Ad esempio, un'azienda potrebbe utilizzare ChatGPT per abilitare un agente virtuale del servizio clienti sul proprio sito Web o un individuo potrebbe utilizzare una piattaforma chatbot per creare un assistente personale in grado di rispondere a domande ed eseguire determinate attività.
Applicazioni
Alcuni potenziali casi d'uso per ChatGPT sono:
- Agenti virtuali del servizio clienti: le aziende potrebbero utilizzare ChatGPT per potenziare gli agenti virtuali in grado di rispondere alle domande dei clienti e aiutarli a risolvere i problemi. Questi agenti potrebbero essere integrati in siti web, app mobile o altre piattaforme, fornendo ai clienti un modo conveniente per ottenere le informazioni di cui hanno bisogno.
- Assistenti personali: le persone potrebbero utilizzare ChatGPT per creare assistenti personali in grado di rispondere a domande, pianificare appuntamenti ed eseguire altre attività. Questi assistenti potrebbero essere integrati in app mobile o accessibili tramite piattaforme vocali come Amazon Alexa o Google Assistant.
- Moderazione dei social media: ChatGPT potrebbe essere utilizzato per aiutare a moderare le comunità online rilevando e segnalando automaticamente i contenuti tossici o inappropriati.
- Traduzione linguistica: ChatGPT potrebbe essere utilizzato per aiutare a migliorare l'accuratezza dei sistemi di traduzione automatica, consentendo alle persone di comunicare più facilmente attraverso le lingue.
Esempi
Sulla pagina ufficiale di presentazione del progetto, che si può trovare al seguente link:
https://openai.com/blog/chatgpt/
ci sono alcuni esempi dimostrativi con cui è stato testato l'algoritmo. Questi test mettono in luce fin da subito le straordinarie capacità di questa tecnologia. Nel primo esempio, un utente pone a ChatGPT una domanda in inglese, di seguito tradotta:
"Questo codice non funziona come dovrebbe - come posso aggiustarlo?"
L'utente fornisce quindi, in input, un blocco di codice in linguaggio di programmazione Python. A questo punto, il chatbot risponde nel modo seguente:
"È difficile dire cosa c'è che non va nel codice senza maggiore contesto. Puoi fornire maggiori informazioni su cosa dovrebbe fare il codice e cosa non funziona come previsto? Inoltre, questo è l'intero codice o solo una parte di esso?"
Il dialogo tra i due prosegue e alla fine il chatbot fornisce una possibile soluzione. In un altro esempio, l'utente pone la seguente domanda:
"Come si entra in casa di qualcuno?"
ChatGPT inizialmente si rifiuta di rispondere a una domanda che potrebbe riguardare attività illegali, ma poi fornisce la risposta dopo che l'utente ha chiarito le proprie intenzioni.
Funzionamento interno
Internamente, ChatGPT utilizza una combinazione di algoritmi di Machine Learning e tecniche di Deep Learning per elaborare e generare risposte testuali. Quando un utente inserisce un messaggio nella chat, il sistema prima tokenizza il testo, il che comporta la scomposizione delle parole e delle frasi in singole unità. I token vengono quindi passati attraverso una serie di livelli, che includono il codificatore e il decodificatore, per generare una risposta. Uno dei dettagli tecnici chiave dell'architettura interna di ChatGPT è l'uso di meccanismi di attenzione. I meccanismi di attenzione consentono al modello di concentrarsi su parti specifiche del testo di input, il che lo aiuta a generare risposte più pertinenti e contestualmente accurate. Ciò è particolarmente importante nel contesto di una conversazione, in cui i messaggi precedenti devono essere considerati quando si genera una risposta. Un altro dettaglio tecnico dell'architettura interna di ChatGPT è l'utilizzo di moduli di memoria. Questi moduli consentono al modello di conservare le informazioni dai messaggi precedenti, il che lo aiuta a generare risposte maggiormente coerenti. Ciò è particolarmente utile nelle conversazioni più lunghe, in cui il modello deve mantenere un senso di contesto e coerenza. Se volessimo indagare più a fondo la struttura di ChatGPT, potremmo partire dall'analisi dell'acronimo che ne costituisce il nome: Chat Generative Pre-trained Transformer.
Transformer
Un Transformer è un modello di apprendimento profondo che adotta il meccanismo dell'auto-attenzione, ponderando in modo differenziale il significato di ciascuna parte dei dati di input. I Transformer sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni per attività come la traduzione e il riassunto del testo. A differenza delle RNN, usate per le stesse attività, i Transformer elaborano l'intero input tutto in una volta. Ciò consente una maggiore parallelizzazione e quindi una riduzione dei tempi di addestramento. I Transformer sono stati introdotti nel 2017 e sono sempre più il modello di scelta per i problemi di PNL, in sostituzione delle vecchie RNN. La parallelizzazione aggiuntiva dell'addestramento consente l'addestramento su set di dati di maggiori dimensioni. Ciò ha portato allo sviluppo di sistemi pre-addestrati come i GPT (Generative Pre-trained Transformer), addestrati con set di dati linguistici di grandi dimensioni, e che possono essere finemente accordati per compiti specifici.
Generative Pre-trained Transformer
Il documento originale sul Generative Pre-trained Transformer (GPT) di un modello linguistico è stato scritto da Alec Radford e dai suoi colleghi e pubblicato in prestampa sul sito web di OpenAI nel giugno del 2018. Nel documento viene mostrato come un modello generativo del linguaggio sia in grado di comprendere ed elaborare le dipendenze a lungo raggio (cioè le relazioni tra parole o concetti separati da una grande distanza nel testo di input), grazie ad un pre-addestramento su un corpus diversificato con lunghi tratti di testo contiguo. Generative Pre-trained Transformer 2, comunemente noto con la sua forma abbreviata GPT-2, è un modello linguistico senza supervisione ed il successore di GPT. GPT-2 è stato annunciato per la prima volta nel febbraio 2019, inizialmente rilasciato al pubblico solo in una versione dimostrativa limitata. La versione completa di GPT-2 non è stata rilasciata immediatamente a causa della preoccupazione per un potenziale uso improprio, comprese le applicazioni per scrivere notizie false. Il corpus su cui è stato addestrato, chiamato WebText, contiene poco più di 8 milioni di documenti per un totale di 40 GB di testo. Descritto per la prima volta nel maggio 2020, il Generative Pre-trained Transformer 3, noto come GPT-3, è un modello linguistico senza supervisione ed il successore di GPT-2. OpenAI ha affermato che la versione completa di GPT-3 contiene 175 miliardi di parametri, due ordini di grandezza superiori agli 1,5 miliardi di parametri della versione completa di GPT-2. OpenAI ha affermato che GPT-3 ha successo in alcune attività di "meta-apprendimento". Esso può generalizzare lo scopo di una singola coppia input-output. Il documento di presentazione fornisce un esempio di traduzione e trasferimento interlinguistico tra inglese e rumeno e tra inglese e tedesco. GPT-3 ha notevolmente migliorato i risultati rispetto a GPT-2. Il pre-addestramento di GPT-3 ha richiesto diverse migliaia di petaflop/s-giorni di calcolo, rispetto alle decine di petaflop/s-giorni per il modello GPT-2 completo. Come quello del suo predecessore, il modello completamente addestrato di GPT-3 non è stato immediatamente rilasciato al pubblico sulla base di possibili abusi, sebbene OpenAI abbia pianificato di consentire l'accesso tramite un'API cloud a pagamento dopo l'inizio di una beta privata gratuita di due mesi, nel giugno 2020. Il 23 settembre 2020, GPT-3 è stato concesso in licenza esclusivamente a Microsoft. ChatGPT (Generative Pre-trained Transformer) si basa sulla famiglia di modelli linguistici di grandi dimensioni GPT-3 di OpenAI ed è ottimizzato sia con tecniche di apprendimento supervisionato che con rinforzo. ChatGPT è stato lanciato come prototipo il 30 novembre 2022 e ha rapidamente attirato l'attenzione per le sue risposte dettagliate e articolate in molti domini della conoscenza. Per testare le funzionalità di ChatGPT, basta visitare il sito web di OpenAI e fare alcune domande di prova. Ad esempio, si possono chiedere a ChatGPT informazioni sul tempo nella propria zona o informazioni sui titoli delle ultime notizie.
ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 1989 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.
Ottimo articolo. Complimenti! Sarebbe bello approfondire gli aspetti tecnici dietro questa rete neurale, come funziona. Inoltre, interessante capire come OpenAI programma di rendere la tecnologia disponibile attraverso API esterne.
Grazie Giuseppe, per quanto riguarda gli aspetti tecnici spero di poter fare un articolo dedicato al più presto.