Tra opportunità strategiche e sfide normative: i dati sintetici, ovvero generati da modelli matematici come nuova frontiera nell’addestramento di sistemi IA
Come è noto, lo sviluppo di nuovi sistemi di Intelligenza Artificiale, così come il miglioramento di quelli già esistenti, procede oggi ad una velocità senza precedenti. Si basa fortemente su una “materia prima” irrinunciabile: i dati necessari all’addestramento degli algoritmi. Tali dati, al momento, provengono per lo più da eventi che si verificano nel mondo fisico o da attributi individuali. Sono quindi soggetti a numerose complicazioni, tra cui costi di raccolta, problemi di qualità e difficoltà legate alla tutela della privacy.
Per far fronte a questo tipo di sfide, mentre le istituzioni di tutto il mondo cercano di disegnare quadri normativi che possano tenere il passo dell’innovazione, le principali aziende tecnologiche sembrano aver trovato una soluzione ad alto potenziale nel dominio dei cosiddetti dati sintetici. Tale strumento sembra infatti rappresentare un’opportunità senza precedenti per sfruttare a pieno il valore dei dati. Prova infatti a rispondere sia alle sfide operative che a quelle normative. Come? Questo è il tema affrontato dal Think Tank AWARE nel recente policy paper “IA generativa: dati sintetici tra opportunità strategiche e sfide normative”, del quale si prova qui a ripercorrere gli snodi principali.
Un’introduzione ai dati sintetici ed alla loro strategicità
Il mercato che si fonda sulla generazione di dati sintetici ha registrato una crescita pari al 50,5% tra il 2019 e il 2023, ma l’elemento ancora più interessante è il fatto che questa scalata non sembra destinata a fermarsi: infatti, è previsto che il settore raggiunga i 13 miliardi di dollari entro il 2034, con un tasso di crescita superiore al 45% nel periodo 2024-2034.
Sebbene non vi sia ancora consenso in merito ad una definizione univoca, utile può essere partire dalla proposta avanzata dalla Royal Society e dall’Alan Turing Institute, i quali propongono di descrivere i dati sintetici come “dati generati utilizzando un modello matematico o un algoritmo appositamente creato, con lo scopo di risolvere un insieme di compiti”.
Quali vantaggi
Così facendo, si evitano divagazioni legate alle loro applicazioni, e si valorizza invece la capacità di replica delle proprietà statistiche di un’entità. Proprio tale proprietà, infatti, consente ai dati sintetici di apportare una serie di benefici strategici nei seguenti ambiti:
- Sviluppo dell’IA e del Machine Learning: l’accesso a una serie di dati diversificati e di alta qualità è fondamentale per l’addestramento di modelli robusti di IA e di apprendimento automatico. Tuttavia, l’acquisizione di tali dati può essere difficile a causa di problemi di privacy, scarsità di dati o rarità di alcuni eventi. La generazione di dati sintetici aiuta a superare questi ostacoli, fornendo insiemi di dati ampi e diversificati che migliorano le prestazioni e l’affidabilità degli algoritmi di IA, senza i vincoli e gli errori spesso presenti nei dati del mondo reale.
- Riduzione dei costi: raccogliere ed etichettare grandi quantità di dati reali può essere estremamente costoso, sia in termini di risorse umane che tecnologiche, e richiede molto tempo e conformità a rigide normative sulla privacy. La generazione di dati sintetici può ridurre drasticamente questi costi creando automaticamente grandi volumi di dati etichettati.
- Mitigazione dei bias: il pregiudizio può insinuarsi negli algoritmi in diversi modi, occorre sfatare il mito delle macchine “imparziali”. Le applicazioni di Intelligenza Artificiale si basano infatti sull’esecuzione di un algoritmo partendo da un dataset che può finire per riflettere indirettamente i preconcetti di chi l’ha progettato, solitamente collegati a razza, genere, sesso biologico, età e cultura. Proprio grazie ai dati sintetici, è ora possibile bilanciare categorie sottorappresentate nel dataset di partenza, garantendo robustezza e affidabilità dei risultati.
- Tutela della privacy: l’aspetto più promettente dei dati sintetici è la loro potenziale capacità di far fronte alle tutele sui dati personali richieste dal GDPR (Regolamento generale sulla protezione dei dati), permettendo di preservare l’utilità dei dati per la ricerca e l’analisi anche in settori particolarmente sensibili come quello della sanità o della finanza.
Le tipologie di dati sintetici
Tra le tipologie di dati sintetici, occorre tenere a mente la distinzione tra dati completamente e parzialmente sintetici. I dati parzialmente sintetici si generano estraendo e replicando le proprietà statistiche di un set di dati del mondo reale. Questo tipo di dati può essere particolarmente utile in ambito sanitario, dove possono proteggere la tutela della privacy dei pazienti, consentendo allo stesso tempo ai ricercatori di condurre analisi e condividere i risultati svincolandosi dalla rigida normativa dettata dal legislatore italiano, che impone l’acquisizione del consenso dell’interessato per ogni uso secondario che s’intende attuare.
Dall’altra parte, i dati completamente sintetici vengono creati interamente ex novo sulla base di regole, modelli o simulazioni predefiniti. Questi dati non rappresentano direttamente il mondo fisico, ma sono progettati per replicare la complessità e le variabili che potrebbero essere osservate in scenari del mondo reale. La generazione di dati completamente sintetici è particolarmente utile quando si desidera simulare sistemi complessi o quando i dati reali non sono disponibili per l’utilizzo.
Le implicazioni legate alla generazione di dati sintetici
Così come i dati reali, anche la generazione di dati sintetici porta con sé altrettante sfide, riguardanti soprattutto l’affidabilità dell’output e la conformità alle normative vigenti. In questo contesto, è quindi cruciale affrontare vari aspetti, tra cui: la validazione della qualità dei dati, la trasparenza degli algoritmi di generazione, le implicazioni legali relative al GDPR e la questione della proprietà intellettuale.
In primo luogo, è fondamentale implementare pratiche rigorose di validazione e verifica durante la generazione dei dati sintetici, al fine di garantire la qualità e l’accuratezza dei dati prodotti. Senza tali misure, l’affidabilità dei dati sintetici potrebbe essere compromessa, con potenziali ripercussioni negative su tutte le applicazioni che ne fanno uso.
In secondo luogo, è essenziale sviluppare meccanismi di valutazione della spiegabilità dei procedimenti algoritmici utilizzati per la generazione dei dati sintetici. La trasparenza nell’operato degli algoritmi non solo aumenta la fiducia degli utenti, ma è anche fondamentale per il rispetto di norme etiche e legali. A tal proposito, l’intervento delle autorità di controllo è necessario per stabilire linee guida e standard di spiegabilità che possano essere adottati universalmente.
Terzo, è imperativo chiarire le circostanze applicative del GDPR ai dati sintetici. La generazione di dati sintetici, intesa come il processo di sintetizzazione, rientra nella definizione di “trattamento” ai sensi dell’art. 4 del GDPR. Pertanto, è un errore comune pensare che i dati sintetici siano automaticamente esenti dalla regolamentazione del GDPR per loro natura. Il GDPR non si applica ai dati completamente sintetici o generati da dataset contenenti esclusivamente dati non personali. Tuttavia, la situazione cambia se questi dati sono stati generati a partire da dati personali e non possono essere considerati “totalmente” anonimi.
Infine, la definizione della proprietà intellettuale dei dati sintetici rappresenta un altro aspetto cruciale. La mancanza di linee guida chiare su chi detiene i diritti sui dati sintetici potrebbe ostacolare l’innovazione e la collaborazione tra le diverse entità coinvolte. Pertanto, una normativa ben definita in questo ambito è necessaria per promuovere un ecosistema di dati sintetici equo e innovativo.
Alcune proposte di policy
Alla luce delle diverse criticità evidenziate nel paragrafo precedente, per garantire quindi uno sviluppo etico e sostenibile della tecnologia dei dati sintetici, è fondamentale che l’intervento politico e normativo si concentri in almeno due aree principali: da un lato, l’affidabilità e la robustezza dei dati sintetici generati, mentre dall’altra il loro rapporto con il GDPR.
Proposta 1 – Certificazione delle modalità e tecniche per la sintesi dei dati
L’articolo 42 del GDPR incoraggia l’adozione di meccanismi di certificazione per garantire la protezione dei dati personali durante le operazioni di trattamento. In linea con questo principio, si propone l’introduzione di un sistema di certificazione specifico per l’utilizzo di modelli di intelligenza artificiale generativa nella creazione di dati sintetici. Tale certificazione avrebbe il duplice scopo di salvaguardare i diritti degli interessati e di assicurare la qualità e la conformità dei processi di sintesi. Gli standard di certificazione potrebbero includere linee guida pratiche per definire, ad esempio, quando un dato può essere considerato sufficientemente anonimo o quando un dato sintetico soddisfa requisiti di robustezza e affidabilità. Tale sistema, potenzialmente strutturato sotto forma di manuali o protocolli, offrirebbe agli sviluppatori un riferimento chiaro e sistematico per garantire la conformità normativa.
Proposta 2 – Informativa sulla generazione del dato sintetico
Un ulteriore strumento di policy potrebbe consistere nell’obbligo, per i produttori di modelli generativi, di fornire un’informativa dettagliata agli utilizzatori. Questa informativa dovrebbe includere:
- La natura dei dati impiegati nonché delle metodologie utilizzate per testare e validare il sistema.
- Una valutazione dei rischi associati all’utilizzo del modello. Un’informativa dettagliata sui modelli generativi tutela i diritti degli utilizzatori e degli interessati. Inoltre, contribuisce ad elevare gli standard etici e legali nella progettazione e nell’impiego di queste tecnologie.
Le proposte di policy esaminate offrono un punto di partenza per regolatori e stakeholder che desiderino adottare un approccio bilanciato. Un approccio capace di favorire l’innovazione tecnologica senza compromettere la protezione dei diritti degli individui e la fiducia pubblica. È necessario un impegno continuo per monitorare e adeguare le normative alla rapida evoluzione tecnologica, al fine di garantire che i dati sintetici possano essere utilizzati in modo responsabile e sostenibile nel lungo termine.