martedì 05 Mar, 2024

Dal testo all’immagine, o quasi

,

I limiti della Text-to-Image Generation sono diversi e molteplici. Un’analisi dell’impatto delle tecniche di prompting sulla performance di Stable Diffusion

Una delle difficoltà dell’uso dell’intelligenza artificiale generativa per la creazione di immagini sta nel codificare adeguatamente ciò che osserviamo, e che vorremmo osservare, con ciò che la macchina può capire e tradurre. In aggiunta a questo, è importante tenere in considerazione alcune limitazioni dei modelli text-to-image. Il processo di addestramento e i dati utilizzati giocano infatti un ruolo cruciale nell’output prodotto.

Nel caso dei sistemi generativi testuali, il modello in fase di generazione si basa sulla stima della probabilità delle parole, ottenuta in base ai dati di addestramento. Analogamente, i modelli text-to-image saranno condizionati a produrre immagini simili a quelle viste durante la fase di addestramento. Questo pone un interessante quesito rispetto al comportamento di tali modelli quando la richiesta si discosti significativamente dai dati di training. La ricerca presentata in questo articolo è il risultato di uno studio che ho svolto presso l’Università di Pisa e si fonda su due obiettivi principali: da un lato analizzare l’effetto dell’applicazione di varie tecniche di prompting, ovvero la descrizione di cosa stiamo chiedendo all’intelligenza generativa, sull’output generato da Stable Diffusion. Dall’altro punta a valutare l’impatto che la tipicità di un’azione ha sul risultato prodotto dal modello.

L’analisi condotta si è basata su una valutazione qualitativa e quantitativa di 4 dataset di 1000 immagini, ciascuno dei quali è stato generato dal modello Stable Diffusion applicando diverse tecniche di prompting di complessità crescente. In particolare ci si è concentrati nell’ottenere una misura del grado di coerenza tra input testuale e output generato al fine di individuare il tipo di prompt più efficace e i limiti del modello generativo utilizzato.Inizialmente per poter automatizzare il processo generativo sono stati selezionati 50 diversi verbi.

Partendo poi dalle singole forme verbali, sono stati realizzati 4 diversi tipi di frase: 

  • Typical Events (TE): descrivono eventi comuni con argomenti altamente prototipici.
  • Semantic Role Reversal (SRR): frasi ottenute invertendo i ruoli semantici di agente e paziente. 
  • Atypical Events (AT): frasi in cui uno dei ruoli semantici è ricoperto da un’entità atipica.
  • Impossible Events (IE): frasi totalmente irrealizzabili in cui uno degli argomenti non può compiere o subire l’azione espressa dal verbo.

Ciascuna frase successivamente trasformata in prompt ed utilizzata come input per il modello Stable Diffusion, che, attraverso l’applicazione di tecniche di prompting di complessità crescente, ha generato in output quattro tipi immagine.

Tipi d’immagine:

  • rawPrompt: immagini generate senza l’utilizzo di alcuna tecnica di ottimizzazione. 
  • negPrompt: immagini ottenute con l’ausilio del Negative Prompting, tecnica che permette di filtrare tutti i contenuti che si vogliono evitare di rappresentare all’interno delle immagini e controllare maggiormente la resa di specifici dettagli. 
  • completePrompt: set ottenuto applicando, in aggiunta al negative prompt, una serie di modificatori per migliorare la qualità dell’immagine risultante. 
  • addingContext: serie di immagini che utilizza tutte le tecniche precedenti con l’ulteriore aggiunta del contesto.

Riuscire a esprimere una valutazione sulle prestazioni di modelli text-to-image è un compito molto complesso dato che un’immagine può essere valutata da diversi punti di vista. In questa ricerca si è scelto quindi di elaborare due strategie distinte per misurare la coerenza tra immagini generate e prompt forniti attraverso indicatori indiretti. 

La prima strategia si basa sull’idea di passare dal linguaggio per valutare la qualità di un’immagine e si fonda sull’utilizzo congiunto di due modelli: un VL-model, BLIP, e un language model, Sentence-BERT.
Nello specifico, con BLIP si è ottenuta una caption che descrive la scena raffigurata in ogni immagine.
Successivamente, con l’utilizzo di Sentence-BERT, specializzato nel quantificare la somiglianza tra due o più frasi, si è confrontata la caption dell’immagine con il prompt che l’ha generata. La seconda strategia si basa sull’utilizzo di CLIP:
Un VL-model che fonda la sua architettura su due encoder incaricati rispettivamente di elaborare testo ed immagini all’interno dello stesso spazio distribuzionale. 

Osservazioni

Da una prima analisi qualitativa si è osservato che le frasi caratterizzate da una maggiore prototipicità portino a risultati piuttosto coerenti con il prompt originale. Le immagini in cui i ruoli semantici vengono scambiati, insieme a quelle che raffigurano eventi atipici, portano spesso il modello verso la creazione di creature ibride.
Le caratteristiche di entrambe le entità sono presenti nel prompt, denotando inoltre una progressiva diminuzione della valenza verbale con l’aggiunta delle tecniche di ottimizzazione.
Nelle frasi che descrivono situazioni impossibili, le immagini generate da rawPrompt mantengono un alto grado di coerenza con l’input fornito al modello.
Dunque vengono ben percepiti quali siano i ruoli, mentre all’aumentare della complessità il modello sembra invece limitarsi ad inserire soggetto e oggetto all’interno della scena. 

Da una successiva analisi quantitativa emerge chiaramente che il miglior tipo di prompt sia quello con la minore complessità. Osservando la deviazione standard nel bar plot in figura emergono delle differenze tra le due strategie di valutazione adottate. 

La prima sembra catturare una varianza maggiore permettendo di inferire che passando per il testo si possa riuscire a catturare un quantitativo maggiore di dettagli. La seconda mostra punteggi con una varianza molto contenuta. 

” È possibile concludere che nonostante la metrica utilizzata attribuisca una maggiore efficacia ai raw prompt, un’analisi qualitativa diretta permette di osservare differenze sostanziali tra come la cosine similarity interpreti il risultato e come l’immagine appaia visivamente. Inoltre, il modello utilizzato ha dimostrato particolari difficoltà nel rappresentare dati nel caso in cui si vadano a trattare contesti meno prototipici; nonostante questa osservazione sia valida in tutto il dataset, paradossalmente, il modello sembra offrire prestazioni migliori nella generazione di immagini totalmente surreali piuttosto che in quelle che svalicano i limiti della logica. Date le attuali limitazioni, la ricerca ora si orienta su nuove metodologie di valutazione che, integrando annotatori umani, permettano un confronto tra i giudizi espressi dall’uomo e le valutazioni automatizzate, con il fine di individuare quale metrica riesca ad approssimare più fedelmente la coerenza tra input e output nei modelli generativi.”

Matteo Trivelli

Scopri subito la nuova edizione di

Tecnologia & Innovazione