02/08/2021
AI, robotica e computer vision: la nuova architettura di Google
Il futuro della robotica dipenderà dalla nuova architettura sviluppata da Google AI?
Sono passati ormai più di quarant’anni dalla prima applicazione robotica all’interno delle fabbriche e da quel momento sono cambiate molte cose.
Da lenti sistemi muniti di bracci meccanici oggi assistiamo a meccanismi sempre più veloci ed automatizzati grazie all’applicazione crescente di sistemi basati sull’Intelligenza Artificiale. Nella pratica affinché un robot sposti un oggetto deve altresì riconoscerlo e sapere dove va collocato. Tale processo si è semplificato nel corso degli anni, grazie ai sistemi quali la Computer Vision ora ancora più performanti con lo sviluppo delle tecniche di Intelligenza Artificiale.
Secondo una ricerca di Venturebeat, molto spesso si percepisce la mancanza di modelli capaci di guidare con precisione le pinze dei robot. Tale problema è emerso in particolare durante la pandemia da COVID-19, che ha dato una notevole spinta ai processi di digitalizzazione, portando anche all’automatizzazione dei processi produttivi aziendali.
La pandemia ha accelerato l’utilizzo dei robot nel comparto industriale, ma cosa sta cambiando nell’uso di queste forme meccaniche?
La risposta è fornita dalla divisione di Google che studia e sviluppa tecnologie nel campo dell’Intelligenza Artificiale, portando continue innovazioni nello stato dell’arte. Uno degli ultimi traguardi raggiunti dal colosso di Mountain View è un’architettura in grado di riorganizzare lo spazio visivo sfruttando le simmetrie spaziali attraverso un apprendimento che si differenzia rispetto ai precedenti.
Tale architettura è chiamata Transporter Network, illustrata durante il CoRL 2020, annuale conferenza internazionale incentrata sulla Robotica e il Machine Learning, grazie alla quale ora sarà possibile insegnare ai software, task di risistemazione vision-based. Questa nuova architettura è studiata in modo tale che il robot impari a spostare oggetti o pezzi di oggetti senza dare loro una specifica classificazione. Per arrivare a questo, il sistema è in grado di trasformare la realtà circostante in uno spazio 3D standardizzato.
Normalmente un robot viene assistito da un sistema di Computer Vision, attraverso il quale impara a riconoscere diverse categorie di oggetti e come questi devono essere ordinati. Attraverso questo nuovo modello, invece, al robot non vengono più insegnate classi di oggetti, bensì lo si addestra a riconoscere lo spazio intorno ad essi. Il training che viene predisposto impartisce al robot parametri dello spazio tridimensionale come la profondità, la larghezza e l’altezza.
Ecco perché non ci riferiamo più a oggetti da spostare ma spazio da riordinare.
L’idea alla base di questa nuova struttura è quella di insegnare al robot a spostare pezzi di spazio 3D, nel quale rientra un oggetto, parte di un oggetto o più oggetti diversi. Le Transporter Network attraverso la Computer Vision catturano la rappresentazione profonda dello spazio visivo 3D, sovrapponendo successivamente strati differenti per scegliere la migliore riorganizzazione possibile appresa durante la fase di addestramento. Tale sistema è il risultato di un esperimento condotto su diversi task. Ai robot sono stati impartiti 10 compiti di manipolazione, come impilare una piramide in blocchi, assemblare kit o spingere pile di piccoli oggetti. L’esperimento ha ottenuto il 90% di successo utilizzando solo 100 dimostrazioni.
Le Transporter Network non sono altro che una semplice architettura di modelli end-to-end che conserva la struttura spaziale senza aver bisogno di informazioni relative ai singoli oggetti da spostare.
Il vantaggio di tale architettura quindi è racchiuso nella sua semplicità e praticità. Inoltre, a differenza dei modelli precedenti le Transporter Network sono applicabili ad una ampia gamma di task di riorganizzazione. Un ulteriore vantaggio è dato dal minor flusso di dati necessari per l’apprendimento, in quanto si basano solo su informazioni contenute nei dati parziali delle telecamere.
A fronte di tale descrizione però è bene porsi una domanda, questi sistemi che effetti positivi hanno sul mondo dell’industria? E quando dobbiamo aspettarci un loro effettivo utilizzo? Tali risposte sono ancora difficili da affrontare in quanto, nonostante tale procedura risulti snella, cela in sé delle complessità al momento dell’applicazione pratica. Passare da un’analisi di oggetto ad un’analisi di percezione è sicuramente una svolta, ma non ci possiamo aspettare nel brevissimo termine un apporto significativo in termini di vantaggio. L’approccio teorico prima di essere applicato necessita di una validazione industriale che passa anche attraverso certificazioni. Come spesso accade vi è un lieve disallineamento e rallentamento tra teoria e pratica in termini di applicazione.
Nonostante il suo rivoluzionario approccio teorico, tale sistema sembra essere ancora “giovane” e presenta alcuni limiti soprattutto in termini di difficoltà di un approccio pratico e sensibilità nella calibrazione delle telecamere dei robot, attraverso i quali lavora il software vision-based. L’intelligenza Artificiale, a fronte della pandemia da COVID-19, si è resa sempre più utile per realizzare automazioni sempre più innovative nel settore della robotica e in grado di richiedere sempre meno dati in fase di training.
Ci si aspetta quindi in futuro maggiori applicazioni, basate su questo studio, all’interno dei reparti industriali in quanto la minor necessità di dati è strategica per l’applicazione pratica di queste tecnologie. Considerando quindi che il tempo è denaro questo potrebbe essere un vantaggio notevole per tutte le aziende che decidono di apportare l’Intelligenza Artificiale nei propri sistemi di automazione.