Come creare una influencer virtuale grazie all’IA

AI

Siamo tutti consapevoli che questa è l'era del marketing attraverso i social media e gli/le influencer. Il concetto di influencer, anche se contemporaneo, si è già evoluto aprendo le porte a una nuova ed entusiasmante dimensione: gli influencer AI. Questi personaggi sono generati da tecnologie di Intelligenza Artificiale come l’apprendimento automatico e l’IA generativa ed hanno iniziato a inondare piattaforme come Instagram e TikTok, ridefinendo il concetto di influencer. In questo articolo, andremo a descrivere gli strumenti che possono essere utilizzati per creare una propria influencer AI.

Introduzione

Gli influencer AI vengono creati sfruttando strumenti di Intelligenza Artificiale e algoritmi di apprendimento automatico. I designer utilizzano questi strumenti per generare l’aspetto, il comportamento e il tipo di contenuto dell’influencer AI. Sono progettati per imitare gli esseri umani nella vita reale, spesso con un maggiore appeal estetico e personalità accattivanti. Questi influencer virtuali includono personaggi come Lil Miquela, una influencer di 23 anni con oltre 3 milioni di followers su Instagram, che ha collaborato con marchi commerciali di alto profilo. È interessante notare che Lil Miquela, una creazione della startup Brud di Los Angeles, non è solo un personaggio virtuale ma una versione AI di una persona reale, confondendo i confini tra identità del mondo reale e identità digitali. Altri influencer AI degni di nota sono: Serah Reikka che rappresenta la nonna degli influencer virtuali essendo attiva sin dal 2014, Lu Do Magalu con oltre 5.5 milioni di follower su Instagram e Imma Gram dai lineamenti orientali diventata il volto di molti marchi commerciali.

Gli strumenti

Per realizzare la nostra influencer AI avremo bisogno di due strumenti:

  1. un generatore di immagini
  2. un'interfaccia web

Come generatore di immagini utilizzeremo Stable Diffusion XL (SDXL), che è un prodotto gratuito e open source. A differenza di DALL-E e Midjourney, SDXL è molto più flessibile ed inoltre è gratuito e open source mentre gli altri due sono prodotti a pagamento e closed source. Per utilizzare SDXL, avremo bisogno di un'interfaccia web. Alcune scelte popolari sono: Automatic1111, ComfyUI e Fooocus. Fooocus è quello più semplice, in più ha tutte le funzionalità di cui necessitiamo al momento.

Stable Diffusion XL

Stable Diffusion, sviluppato da Stability AI, è un modello di Intelligenza Artificiale noto per i suoi progressi nelle immagini generate dall'IA. Stable Diffusion è un modello avanzato di Deep Learning che trasforma le descrizioni testuali in immagini dettagliate. Comprendendo il "significato di diffusione stabile", si può apprezzare la sua capacità di produrre immagini che si allineano in modo efficiente con le descrizioni testuali fornite. A differenza dei modelli tradizionali che operano in uno spazio immagine ad alta dimensionalità, la diffusione stabile comprime innanzitutto l'immagine in uno spazio latente più gestibile. Questo approccio semplifica il processo e migliora l’efficienza del modello. La compressione nello spazio latente viene ottenuta utilizzando una tecnica chiamata autoencoder variazionale (VAE). Il VAE ha due componenti principali: un codificatore e un decodificatore. Il codificatore comprime l'immagine nello spazio latente mentre il decodificatore ripristina l'immagine da questa forma compressa. Vediamo in grandi linee come opera il modello:

  1. Il processo di diffusione stabile inizia generando un tensore casuale nello spazio latente. Questo tensore, determinato dal seme del generatore di numeri casuali, rappresenta l’immagine nella sua forma latente, anche se in questa fase come rumore.
  2. Questa immagine rumorosa latente e il messaggio di testo vengono forniti come input al predittore del rumore U-Net che prevede il rumore nello spazio latente.
  3. Il rumore latente previsto viene sottratto dall'immagine latente iniziale, ottenendo una nuova. I passaggi 2 e 3 vengono ripetuti per un numero predeterminato di passaggi di campionamento, spesso circa 20 iterazioni.
  4. Il passaggio finale coinvolge l'autoencoder variazionale (VAE), che traduce l'immagine latente nello spazio dei pixel, producendo l'immagine finale generata dall'Intelligenza Artificiale.

Nel contesto di Stable Diffusion e di altri modelli di Intelligenza Artificiale, i checkpoint sono come istantanee dello stato del modello in un punto specifico del suo addestramento. Possiamo pensare che addestrare un modello di Intelligenza Artificiale sia come insegnare a qualcuno una nuova abilità. Il modello inizia con una conoscenza minima o nulla e apprende gradualmente osservando esempi, come immagini e descrizioni di testo. Durante questo processo di apprendimento iterativo, il modello regola le sue impostazioni interne, note come parametri, per migliorare la sua capacità di generare immagini che corrispondano alle descrizioni testuali fornite.

Un checkpoint, quindi, è come un punto di salvataggio in questo viaggio di apprendimento. Esso registra i parametri del modello in una particolare fase dell'addestramento. Ciò significa che se il processo di addestramento viene interrotto, è possibile riprenderlo da un checkpoint invece di ricominciare da zero. Un pò come quando si salvano i progressi fatti in un videogioco. Quando si utilizza Stable Diffusion, il caricamento di un checkpoint consente di generare immagini in base alla conoscenza appresa accumulata dal modello fino a quel momento nel suo addestramento.

Sono stati rilasciati diversi checkpoint importanti per il modello di Stable Diffusion, che rappresentano pietre miliari significative nella sua evoluzione. La versione v1.5 ha segnato una tappa importante nello sviluppo del modello ed è servita come modello di checkpoint fondamentale, gettando le basi per le versioni successive. Stable Diffusion XL (SDXL) è una versione migliorata di Stable Diffusion, che offre capacità di generazione di immagini superiori. Include la capacità di generare immagini con una risoluzione più elevata, in particolare 512 pixel. Il modello SDXL 1.0 è stato descritto da Stability AI come la versione più avanzata, sottolineandone la superiorità in termini di capacità di generazione di immagini. Juggernaut XL è una versione specializzata del modello sviluppato all'interno della comunità artistica AI perfezionando i modelli di base. Questo modello mette in mostra l'approccio collaborativo e innovativo adottato dalla community per ottimizzare aspetti specifici come la qualità dell'immagine, lo stile o la messa a fuoco del soggetto. La community si è impegnata attivamente nell'ottimizzazione dei modelli di base, portando alla creazione di vari modelli specializzati. Questi modelli sono sottoposti a processi di aggiustamento e ottimizzazione per valorizzare aspetti specifici in base alle esigenze e alle preferenze della comunità.

Text to Image (TXT2IMG) è una funzionalità comunemente presente nei modelli di generazione di immagini AI come Stable Diffusion. Consente agli utenti di inserire un messaggio di testo (prompt) che descrive l'immagine che desiderano generare. L'Intelligenza Artificiale quindi interpreta e traduce questi input testuali nel contenuto visivo corrispondente.

I metodi di campionamento nella generazione di immagini AI si riferiscono alle tecniche utilizzate dall'IA per creare un'immagine da un determinato messaggio di testo. Questi metodi guidano l'Intelligenza Artificiale nella scelta di caratteristiche e stili specifici per generare un'immagine finale che corrisponda al prompt di input. Il numero di passaggi di campionamento rappresenta le iterazioni eseguite dal modello per perfezionare l'immagine generata. Un numero maggiore di passaggi di campionamento generalmente produce un'immagine più rifinita e dettagliata, ma richiede anche più tempo di calcolo.

Fooocus

Fooocus è un'interfaccia web per Stable Diffusion progettata per ridurre la complessità di altre interfacce SD come ComfyUI, facendo in modo che il processo di generazione dell'immagine richieda un solo prompt. L'interfaccia utilizza una serie di impostazioni predefinite ottimizzate per fornire i migliori risultati quando si utilizzano i modelli SDXL. Questa interfaccia dovrebbe funzionare con una GPU con VRAM da 8 GB, ma per un'esperienza più stabile si consigliano 12 GB. L'interfaccia utente di Fooocus (Figura 1) è progettata per essere user-friendly, consentendo agli utenti di inserire un prompt e generare un'immagine. È uno strumento che ha automatizzato la migliore configurazione per impostazione predefinita, consentendo agli utenti di concentrarsi sulla richiesta e sulla generazione e ignorare i parametri tecnici. Tuttavia, per coloro che desiderano un maggiore controllo, Fooocus fornisce anche una miriade di funzionalità per gli utenti avanzati che non sono soddisfatti delle impostazioni predefinite.

[...]

ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 2029 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.

Scarica subito una copia gratis

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend