211service.com
Sistemi di visione ispirati biologicamente
I neuroscienziati del MIT hanno sviluppato un modello al computer che imita il sistema di visione umano per rilevare e riconoscere con precisione gli oggetti in una scena stradale trafficata, come automobili e motocicli.

Riconoscere gli oggetti in una scena, come l'auto nella scena della strada mostrata qui, può essere una sfida per i computer. Un modello di come il cervello elabora le informazioni visive offre un approccio di successo.
Tali sistemi di visione biologicamente ispirati potrebbero presto essere utilizzati nei sistemi di sorveglianza o nei sensori intelligenti in grado di avvertire i conducenti di pedoni e altri ostacoli. Può anche aiutare nello sviluppo dei cosiddetti motori di ricerca visivi, afferma Tommaso Serre , neuroscienziato al Centro per l'apprendimento biologico e computazionale al McGovern Institute for Brain Research del MIT, che è stato coinvolto nel progetto.
I ricercatori sono stati interessati per anni a provare a copiare i sistemi di visione biologica, semplicemente perché sono così buoni, dice David Hogg, un esperto di visione artificiale all'Università di Leeds nel Regno Unito. Questo è un esempio di grande successo di [imitazione della visione biologica], dice.
Insegnare a un computer a classificare gli oggetti si è rivelato molto più difficile di quanto inizialmente previsto, afferma Serre, che ha svolto il lavoro con Tomaso Poggio , condirettore del centro. Da un lato, per riconoscere un particolare tipo di oggetto, come un'automobile, un computer ha bisogno di un modello o di una rappresentazione computazionale specifica per quel particolare oggetto. Tale modello consente al computer di distinguere un'auto da oggetti di altre classi, non auto. Tuttavia, questa rappresentazione deve essere sufficientemente flessibile da includere tutti i tipi di auto, non importa quanto vari nell'aspetto, in diverse angolazioni, posizioni e pose e in diverse condizioni di illuminazione.
Vuoi essere in grado di riconoscere un oggetto ovunque nel campo visivo, indipendentemente da dove si trova e dalle sue dimensioni, afferma Serre. Tuttavia, se analizzi le immagini solo in base ai loro schemi di pixel chiari e scuri, due immagini di ritratti di persone diverse possono sembrare più simili di due immagini della stessa persona scattate da angolazioni diverse.
Il metodo più efficace per aggirare tali problemi è addestrare un algoritmo di apprendimento su un insieme di immagini e consentirgli di estrarre le caratteristiche che hanno in comune; due ruote allineate con la strada potrebbero segnalare un'auto, per esempio. Serre e Poggio credono che il sistema di visione umano utilizzi un approccio simile, ma che dipende da una gerarchia di strati successivi nella corteccia visiva. I primi strati della corteccia rilevano le caratteristiche più semplici di un oggetto, come i bordi, e gli strati superiori integrano tali informazioni per formare la nostra percezione dell'oggetto nel suo insieme.
Per testare la loro teoria, Serre e Poggio hanno lavorato con Stanley Bileschi, sempre al MIT, e Lior Wolf, membro del dipartimento di informatica dell'Università di Tel Aviv in Israele, per creare un modello di computer comprendente 10 milioni di unità computazionali, ciascuna progettata per comportarsi come gruppi di neuroni nella corteccia visiva. Proprio come nella corteccia, i cluster sono organizzati in strati.
Quando il modello impara a vedere per la prima volta, alcune unità simili a celle estraggono caratteristiche rudimentali dalla scena, come i bordi orientati, analizzando gruppi molto piccoli di pixel. Questi neuroni sono in genere come fori di spillo che guardano una piccola porzione del campo visivo, dice Serre. Le unità più complesse sono in grado di acquisire una porzione più ampia dell'immagine e riconoscere le caratteristiche indipendentemente dalle loro dimensioni o posizione. Ad esempio, se le unità semplici rilevano bordi verticali e orizzontali, un'unità più complessa potrebbe utilizzare tali informazioni per rilevare un angolo.
Ad ogni livello successivo, dall'immagine vengono estratte caratteristiche sempre più complesse. Così sono le relazioni tra le caratteristiche, come la distanza tra due parti di un oggetto o i diversi angoli a cui le due parti sono orientate. Queste informazioni consentono al sistema di riconoscere lo stesso oggetto da diverse angolazioni.
È stata una sorpresa per noi quando abbiamo applicato questo modello a compiti visivi del mondo reale e ha gareggiato bene con i migliori sistemi, afferma Serre. In effetti, in alcuni test il loro modello ha riconosciuto con successo gli oggetti più del 95% delle volte, in media. Maggiore è il numero di immagini su cui viene addestrato il sistema, maggiore è la precisione delle sue prestazioni.
Forse non dovremmo essere sorpresi, dice David Lowe , un esperto di visione artificiale e riconoscimento di oggetti presso l'Università della Colombia britannica a Vancouver. La vista umana è di gran lunga migliore nel riconoscimento rispetto a qualsiasi dei nostri attuali sistemi informatici, quindi è probabile che qualsiasi suggerimento su come procedere dalla biologia sia molto utile.
Al momento, il sistema è progettato per analizzare solo immagini fisse. Ma questo è molto in linea con il modo in cui funziona il sistema di visione umana, afferma Serre. Gli input alla corteccia visiva sono condivisi da un sistema che si occupa di forme e trame mentre un sistema separato si occupa del movimento, dice. Il team sta ora lavorando per incorporare un sistema parallelo per gestire i video.