La visione artificiale fa progredire l'automazione

Di Jody Muelaner

La visione artificiale è un insieme di tecnologie che consente alle apparecchiature automatizzate (industriali o di altro tipo) di ottenere una comprensione di alto livello dell'ambiente circostante a partire dalle immagini. Senza il software di visione artificiale, le immagini digitali non sarebbero altro che semplici collezioni di pixel scollegati tra loro, con diversi valori di colore e intensità cromatica. La visione artificiale consente ai computer (tipicamente collegati ai controlli delle macchine) di rilevare i bordi e le forme all'interno di tali immagini per consentire a loro volta alle routine di elaborazione di livello superiore di identificare oggetti di interesse predefiniti. Le immagini in questo senso non sono necessariamente limitate alle immagini fotografiche nello spettro visibile, ma possono anche includere immagini ottenute con segnali a infrarossi, laser, raggi X e ultrasuoni.

Immagine dell'utilizzo della visione artificiale per applicazioni robotiche più sofisticateFigura 1: L'uso della visione artificiale per applicazioni robotiche più sofisticate è in aumento. (Immagine per gentile concessione di John6863373 | Dreamstime.com)

Un'applicazione comune di visione artificiale in ambito industriale è l'identificazione di un pezzo specifico in un contenitore con un mix casuale di pezzi. In questo caso, la visione artificiale può aiutare i robot pick-and-place a prelevare automaticamente il pezzo giusto. Naturalmente, il riconoscimento di queste parti con un feedback di imaging sarebbe relativamente semplice se fossero tutte ordinatamente disposte e orientate allo stesso modo su un vassoio. Tuttavia, i robusti algoritmi di visione artificiale sono in grado di riconoscere gli oggetti a distanze diverse dalla telecamera (e che quindi appaiono di dimensioni diverse sul sensore di imaging) e in orientamenti diversi.

I sistemi di visione artificiale più sofisticati hanno permesso di realizzare progetti nuovi ed emergenti molto più sofisticati della raccolta dei rifiuti, forse non più riconoscibili di quelli dei veicoli autonomi.

Immagine di visione artificiale che fornisce ai sistemi una comprensione di alto livello di un ambienteFigura 2: La visione artificiale fornisce ai sistemi (industriali e non) una comprensione di alto livello di un ambiente a partire dalle immagini. (Immagine per gentile concessione di Wikimedia)

Tecnologie legate alla visione artificiale

Il termine visione artificiale è talvolta riservato a metodi matematici più consolidati ed efficienti per estrarre informazioni dalle immagini. Per contro, il termine visione artificiale descrive tipicamente sistemi più moderni e impegnativi dal punto di vista computazionale, compresi gli approcci "a scatola nera" che utilizzano l'apprendimento automatico o l'intelligenza artificiale (IA). Tuttavia, la visione artificiale può anche essere un termine generico a indicare tutti i metodi di estrazione di informazioni di alto livello dalle immagini; in questo contesto, la visione artificiale descrive le teorie di funzionamento sottostanti.

Sono numerose le tecnologie per estrarre significati di alto livello dalle immagini. All'interno della comunità di ricerca, tali tecnologie sono spesso considerate distinte dalla visione artificiale. Tuttavia, in senso pratico, sono tutti modi diversi di realizzare la visione artificiale... e in molti casi si sovrappongono.

L'elaborazione digitale delle immagini è una forma di elaborazione del segnale digitale che comprende il miglioramento, il restauro, la codifica e la compressione delle immagini. I vantaggi rispetto all'elaborazione analogica delle immagini includono la riduzione del rumore e della distorsione e la disponibilità di un numero molto maggiore di algoritmi. Un primo utilizzo del miglioramento delle immagini è stata la correzione di immagini a distanza ravvicinata della superficie lunare. Per questo sono stati utilizzati la mappatura fotogrammetrica, i filtri antirumore e le correzioni di distorsioni geometriche derivanti dall'allineamento della telecamera con la superficie lunare.

Immagine del controller in CI DLPC350 di Texas InstrumentsFigura 3: Il controller in CI DLPC350 fornisce segnali di trigger in ingresso e in uscita per sincronizzare i modelli visualizzati con una telecamera. Funziona con i dispositivi digitali a microspecchio (DMD) progettati per impartire la visione artificiale 3D alle apparecchiature industriali, mediche e di sicurezza. Le applicazioni comprendono infatti la scansione 3D e i sistemi metrologici. (Immagine per gentile concessione di Texas Instruments)

Il miglioramento di immagini digitali spesso comporta un aumento del contrasto e può anche apportare correzioni geometriche per l'angolo di visione e la distorsione dell'obiettivo. La compressione si ottiene in genere approssimando un segnale complesso a una combinazione di funzioni coseno - un tipo di trasformata di Fourier nota come trasformata coseno discreta o DCT. Il formato di file JPEG è l'applicazione più diffusa della DCT. Il restauro delle immagini può anche utilizzare le trasformate di Fourier per rimuovere il rumore e la sfocatura.

La fotogrammetria impiega una sorta di identificazione delle caratteristiche per estrarre le misurazioni dalle immagini. Queste possono includere informazioni 3D quando più immagini della stessa scena sono state ottenute da posizioni diverse. I sistemi di fotogrammetria più semplici misurano la distanza tra due punti di un'immagine su una scala. A questo scopo è normalmente necessario includere nell'immagine un riferimento di scala noto.

Il rilevamento delle caratteristiche consente ai computer di identificare i bordi e gli angoli o i punti di un'immagine. Si tratta di un primo passo necessario per la fotogrammetria e per l'identificazione di oggetti e movimenti. Il rilevamento dei disturbi può identificare regioni con bordi troppo lisci per il rilevamento dei bordi o degli angoli.

Il riconoscimento dei modelli viene utilizzato per identificare oggetti specifici. Nella sua forma più semplice, ciò potrebbe significare la ricerca di una specifica parte meccanica ben definita su un trasportatore.

La ricostruzione 3D determina la forma 3D degli oggetti a partire da immagini 2D. Si può ottenere con metodi fotogrammetrici in cui l'altezza di elementi comuni (identificati in immagini provenienti da diversi punti di osservazione) viene determinata mediante triangolazione. La ricostruzione 3D è possibile anche utilizzando una singola immagine 2D; in questo caso, il software interpreta (tra le altre cose) le relazioni geometriche tra i bordi o le regioni di ombreggiatura.

Immagine di scanner 3D che acquisiscono immagini 2D di un oggettoFigura 4: Gli scanner 3D acquisiscono immagini 2D di un oggetto per crearne un modello 3D. In alcuni casi, i modelli digitali vengono poi utilizzati per stampare copie in 3D. (Immagine per gentile concessione di Shenzhen Creality 3D Technology Co.)

Un essere umano può ricostruire mentalmente un cubo da una semplice rappresentazione lineare con facilità, e una sfera da un cerchio ombreggiato. L'ombreggiatura indica la pendenza delle superfici. Tuttavia, il processo di deduzione è più complicato di quanto sembri, perché l'ombreggiatura è un parametro monodimensionale, mentre la pendenza è bidimensionale. Questo può portare ad ambiguità, come dimostra l'arte che raffigura oggetti fisicamente impossibili.

Immagine della determinazione computerizzata della forma 3D di un pezzo in lavorazione da un'immagine 2DFigura 5: La determinazione computerizzata della forma 3D di un pezzo da un'immagine 2D è una sfida.

Come vengono ordinate le operazioni di visione artificiale

Molti sistemi di visione artificiale combinano progressivamente le tecniche di cui sopra, iniziando con operazioni di basso livello e avanzando poi una alla volta verso operazioni di livello superiore. Al livello più basso, tutti i pixel di un'immagine sono conservati come dati ad alta larghezza di banda. Quindi ogni operazione della sequenza identifica le caratteristiche dell'immagine e rappresenta le informazioni di interesse con quantità di dati relativamente ridotte.

Le operazioni di basso livello di miglioramento e restauro dell'immagine vengono prima, seguite dal rilevamento delle caratteristiche. Quando si utilizzano più sensori, le operazioni di basso livello possono essere eseguite da processi distribuiti dedicati ai singoli sensori. Una volta rilevate le caratteristiche nelle singole immagini, è possibile effettuare misurazioni fotogrammetriche di livello superiore, così come l'identificazione di oggetti o altre attività che si basano sulla combinazione di dati provenienti da più immagini e sensori.

Calcoli diretti e algoritmi di apprendimento

Un calcolo diretto nel contesto della visione artificiale è un insieme di funzioni matematiche definite manualmente da un programmatore umano. Accetta gli input, come i valori dei pixel dell'immagine, per produrre come output, ad esempio, le coordinate dei bordi di un oggetto. Al contrario, gli algoritmi di apprendimento non sono scritti direttamente dall'uomo, ma vengono addestrati attraverso serie di dati esemplificativi che associano gli input agli output desiderati. Pertanto, funzionano come scatole nere. Per effettuare i calcoli, la maggior parte di questo tipo di apprendimento automatico impiega oggi l'apprendimento profondo basato sulle reti neurali artificiali.

Immagine dei sensori di immagine serie iVu di Banner Engineering SensoriFigura 6: I sensori di immagine serie iVu possono identificare i pezzi in base al tipo, alle dimensioni, alla posizione, all'orientamento e ai colori. I componenti di visione della macchina possono accettare la configurazione e il monitoraggio tramite schermo integrato, HMI remoto o PC. Telecamera, controller, obiettivo e luce sono tutti pre-integrati. (Immagine per gentile concessione di Banner Engineering Corp.)

L'apprendimento automatico semplice per le applicazioni industriali è spesso più affidabile e meno impegnativo dal punto di vista computazionale se basato sul calcolo diretto. Naturalmente, ci sono dei limiti a ciò che si può ottenere con il calcolo diretto. Ad esempio, non si potrebbe mai sperare di eseguire il riconoscimento avanzato dei modelli richiesto per identificare le persone in base ai loro volti, soprattutto non da un video di uno spazio pubblico affollato. L'apprendimento automatico invece gestisce molto bene tali applicazioni. Non c'è quindi da stupirsi che l'apprendimento automatico sia sempre più utilizzato per operazioni di visione artificiale di livello inferiore, come il miglioramento, il restauro e il rilevamento delle caratteristiche delle immagini.

Migliorare gli approcci didattici (non gli algoritmi)

La maturazione della tecnologia di apprendimento profondo ha reso evidente che non sono gli algoritmi di apprendimento in sé a dover essere migliorati, ma il modo in cui vengono addestrati. Una di queste procedure di addestramento migliorate è chiamata visione artificiale incentrata sui dati. In questo caso, il sistema di apprendimento profondo accetta insiemi di addestramento molto grandi, composti da migliaia, milioni o addirittura miliardi di immagini, e poi memorizza le informazioni che i suoi algoritmi estraggono da ciascuna immagine. Gli algoritmi imparano effettivamente esercitandosi con esempi funzionanti e poi facendo riferimento a un "libro delle risposte" per verificare se sono arrivati ai valori giusti.

Una vecchia storia sugli albori del riconoscimento digitale dei modelli serve da monito. Le forze armate statunitensi intendevano utilizzare la visione artificiale per il riconoscimento dei bersagli e le dimostrazioni degli appaltatori della difesa hanno identificato in modo affidabile i carri armati di fabbricazione statunitense e russa. I vari serbatoi sono stati tutti correttamente differenziati dalle fotografie aeree del fornitore, uno dopo l'altro. Ma quando il test è stato ripetuto con la biblioteca di immagini del Pentagono, il sistema ha continuato a dare risposte sbagliate. Il problema era che le immagini dell'appaltatore della difesa raffiguravano tutti carri armati statunitensi in deserti e carri armati russi in campi verdi. Lungi dal riconoscere serbatoi diversi, il sistema riconosceva invece sfondi di colore diverso. La morale? Per essere utili, gli algoritmi di apprendimento devono essere presentati con dati di addestramento attentamente curati.

Conclusione: una visione per la sicurezza delle celle di lavoro robotiche

La visione artificiale non è più una tecnologia di nicchia. L'impiego più diffuso si nota nelle applicazioni industriali. In questo caso, lo sviluppo più significativo è rappresentato dal modo in cui la visione artificiale integra i sistemi di sicurezza degli impianti industriali che emettono allarmi o annunci audio quando il personale dell'impianto entra in una zona di lavoro senza elmetto, maschera o altri dispositivi di protezione corretti. La visione artificiale può anche completare i sistemi che annunciano quando i macchinari mobili, come i carrelli elevatori, si avvicinano troppo alle persone.

Questi e altri sistemi simili di visione artificiale possono talvolta sostituire le protezioni rigide intorno ai robot industriali per consentire operazioni più efficienti. Possono anche sostituire o migliorare i sistemi di sicurezza basati su protezioni luminose che si limitano a fermare i macchinari se un lavoratore dell'impianto entra in una cella di lavoro. Quando la visione artificiale monitora il pavimento della fabbrica che circonda la cella di lavoro, è possibile che i robot in tali celle rallentino gradualmente quando le persone si avvicinano.

Più il design degli ambienti industriali si evolve per accogliere robot collaborativi e altre apparecchiature per le celle di lavoro che non comportano rischi per il personale dell'impianto (anche durante il funzionamento di tali apparecchiature), più questi e altri sistemi basati sulla visione artificiale diventeranno una parte molto comune dei processi di fabbrica.

Esonero della responsabilità: le opinioni, le convinzioni e i punti di vista espressi dai vari autori e/o dai partecipanti al forum su questo sito Web non riflettono necessariamente le opinioni, le convinzioni e i punti di vista di DigiKey o le sue politiche.

Informazioni su questo autore

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner è un ingegnere che ha progettato segherie e dispositivi medici; ha affrontato l'incertezza nei sistemi di produzione aerospaziale e ha creato strumenti laser innovativi. Ha pubblicato in numerose riviste peer-reviewed e sintesi governative ... e ha scritto rapporti tecnici per Rolls-Royce, SAE International e Airbus. Attualmente è a capo di un progetto per sviluppare una bicicletta elettrica, i cui dettagli si trovano su betterbicycles.org. Muelaner si occupa anche degli sviluppi relativi alle tecnologie di decarbonizzazione.