Retroscena

StableDiffusion: immagini da input di testo

David Lee
23.09.2022
Traduzione: Leandra Amato

La generazione di immagini con l'intelligenza artificiale sta facendo progressi. StableDiffusion non fa miracoli, ma è una busta sorpresa. E puoi provarla anche tu, come ho fatto io.

StableDiffusion è un generatore di immagini: basta digitare un testo e l'intelligenza artificiale (IA) genera un'immagine. Questo è anche il modo in cui funzionano altri generatori IA, come Dall-E 2. Mentre Dall-E 2 è attualmente disponibile solo per pochi eletti e solo a pagamento, StableDiffusion può essere utilizzato da chiunque gratuitamente. DiffusionBee per Mac rende le cose particolarmente facili: l'installazione, normalmente piuttosto complicata, si effettua con un semplice trascinamento nella cartella del programma.

Diverso ogni volta

Inizio digitando «cheesy giraffe skiing in the Swiss mountains wearing headphones». Quindi una giraffa che scia sulle montagne svizzere con le cuffie. Gli input di testo funzionano meglio con l'inglese perché il materiale di dati con cui è stato addestrato StableDiffusion è principalmente in inglese.

Ogni volta che StableDiffusion genera un'immagine, viene fuori qualcosa di diverso. Anche con lo stesso testo e le stesse impostazioni. Con il parametro «Guidance» è possibile specificare quanto l'IA debba attenersi alle specifiche del testo. Per impostazione predefinita, è quasi al valore massimo, ma anche in questo caso i risultati variano notevolmente.

Le miscele selvagge danno dei cavoli

L'esempio della giraffa mette insieme cose diverse che normalmente non stanno insieme. Questi input testuali sono ovviamente molto graziosi, ma allo stesso tempo sono molto difficili per l'IA. Infatti, non esistono foto, probabilmente nemmeno disegni, che ritraggano cose del genere. E l'intelligenza artificiale viene addestrata utilizzando immagini reali.

Il problema è evidente anche se scrivo «John Oliver sposa un cavolo».

Gli elementi citati nel testo appaiono nelle immagini, ma non nella forma descritta. Da nessuna parte John Oliver sposa un cavolo. Perché me ne esco con queste sciocchezze? Perché in un video di John Oliver qualcuno ha tentato di fare la stessa cosa con Dall-E 2. Dall-E 2 fallisce proprio come StableDiffusion.

Poiché l'IA ha bisogno di modelli reali per ottenere buoni risultati, John Oliver ha sposato appositamente un cavolo. Si aiuta dove si può.

L’IA va messa in castigo: il vero modello.
L’IA va messa in castigo: il vero modello.

Cosa funziona bene e cosa meno

Avrai notato gli occhi grotteschi di John Oliver. Gli occhi sono spesso storti. I corpi umani sono talvolta grottescamente distorti. Anche StableDiffusion ha difficoltà a tracciare linee rette.

Tre tentativi con «large building with straight geometry».
Tre tentativi con «large building with straight geometry».

Ciò è più preoccupante nelle immagini fotorealistiche che nei dipinti. In ogni caso, i punti di forza di StableDiffusion sembrano risiedere nell'area delle immagini di fantasia. Il sito arthub.ai ne dà una buona impressione.

Ecco alcune immagini per il testo «a beautiful castle beside a waterfall in the woods, fantasy painting».

In sei tentativi su dieci, StableDiffusion dipinge due castelli – l'IA non distingue rigorosamente tra singolare e plurale. Questo può essere molto irritante. È chiaro a tutti che di solito un solo John Oliver si sposa in un matrimonio di John Oliver. Nulla è chiaro per un'IA come StableDiffusion o Dall-E: non ha conoscenze di base per interpretare correttamente gli input. Di conseguenza, crea immagini di due John Oliver che si sposano tra loro.

L'IA non capisce cosa sta dipingendo.
L'IA non capisce cosa sta dipingendo.

StableDiffusion può anche fare poco con termini astratti e vaghi. L'immagine più inappropriata di tutto il mio esperimento con diverse centinaia di immagini è venuta fuori sul tema «Happiness»: esprime praticamente il contrario.

La felicità secondo StableDiffusion.
La felicità secondo StableDiffusion.

StableDiffusion è stato addestrato con Laion 5B, un database con 5,85 miliardi di coppie testo-immagine. Può essere ricercato online. Nella ricerca di «giraffe», la maggior parte dei risultati della ricerca non sono foto di giraffe reali, ma disegni o foto di giocattoli. Questo è il caso di molti termini ed è una possibile spiegazione del fatto che StableDiffusion non gestisce così bene le rappresentazioni fotorealistiche. Il materiale di formazione contiene anche molti meme e altre immagini con testo, quindi a StableDiffusion piace tracciare il testo – senza essere effettivamente in grado di scrivere.

Immagine per «average online commenter raging and hating on everything».
Immagine per «average online commenter raging and hating on everything».

Top 20: le migliori illustrazioni dei titoli delle canzoni

StableDiffusion crea dipendenza perché non sai mai cosa viene fuori. Poiché è necessario attendere alcuni secondi o minuti per ogni immagine, la tensione aumenta. A un certo punto mi è venuta l'idea di inserire i titoli delle canzoni. Mentre aspettavo una foto, mi sono venuti in mente altri titoli che avrei voluto provare. Una volta iniziato, è difficile fermarsi. Comunque, ecco la mia personale top 20:

20. Dr. Funkenstein (George Clinton)

19: Dancing Queen (ABBA)

18: Cosmic Girl (Jamiroquai)

17: Breakfast in America (Supertramp)

16: Shelter From The Storm (Bob Dylan)

15: Yellow River (Christie)

14: Jailhouse Rock (Elvis Presley)

13: Diamonds on the Soles of Her Shoes (Paul Simon)

12: Sexy Motherfucker (Prince)

11: Shine On You Crazy Diamond (Pink Floyd)

10: Material Girl (Madonna)

9: Leck mich im Arsch (Wolfgang Amadeus Mozart)

8: Sex Machine (James Brown)

7: I Am the Walrus (Beatles)

6: Bad Guy (Billie Eilish)

5: Sultans of Swing (Dire Straits)

4: The Boy in the Bubble (Paul Simon)

3: Highway to Hell (AC/DC)

2: Lucy In The Sky With Diamonds (Beatles)

1: Shiny Happy People (R.E.M.)

A 28 persone piace questo articolo


User Avatar
User Avatar

Il mio interesse per il mondo IT e lo scrivere mi hanno portato molto presto a lavorare nel giornalismo tecnologico (2000). Mi interessa come possiamo usare la tecnologia senza essere usati a nostra volta. Fuori dall'ufficio sono un musicista che combina un talento mediocre con un entusiamso eccessivo. 


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Foto e video
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Potrebbero interessarti anche questi articoli

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader

  • Skeleton Loader

    Skeleton Loader