Ricerca di immagini migliore e più accurata

I ricercatori dell'Università della California, San Diego (UCSD), hanno sviluppato un nuovo metodo di ricerca di immagini che, secondo loro, supera gli approcci esistenti con un margine significativo in termini di precisione ed efficienza. L'approccio dei ricercatori modifica un tipico metodo di apprendimento automatico utilizzato per addestrare i computer a riconoscere le immagini, afferma Nuno Vasconcelos, professore di ingegneria elettrica e informatica alla UCSD. Il risultato è un motore di ricerca che etichetta automaticamente le immagini con i nomi degli oggetti in esse contenuti, come ravanelli, ombrelli o nuotatori. E poiché l'approccio utilizza le parole per etichettare e classificare parti di immagini, si presta bene alle tipiche ricerche di parole chiave che le persone eseguono sul Web, afferma Vasconcelos.





Trovare le foto : un nuovo algoritmo sviluppato alla UCSD che aggiunge tag di parole alle immagini può aumentare l'accuratezza e l'efficienza della ricerca di immagini. Sopra, alle caratteristiche di un'immagine viene assegnata una probabilità che appartengano a determinate categorie, come l'acqua o la persona.

Attualmente, la ricerca di immagini su Internet utilizzando le parole chiave può essere incostante. Ciò è dovuto al fatto che la maggior parte delle ricerche basate su immagini utilizza metadati, ovvero testo, come il nome di un file, la data o altre informazioni di base associate a un'immagine, che possono essere incomplete, inutili per le ricerche di parole chiave o del tutto assenti. Gli informatici hanno lavorato su modi migliori per identificare le immagini e renderle ricercabili per più di un decennio, ma far sì che le macchine vadano oltre i metadati e determinino quali oggetti sono in un'immagine è un problema difficile da risolvere e la maggior parte degli sforzi fino ad oggi ha solo avuto un discreto successo.

Sebbene la ricerca UCSD non risolva completamente il problema, migliora le prestazioni e l'efficienza per un determinato approccio, afferma Vasconcelos, e identifica alcune limitazioni nel modo in cui le persone affrontavano il problema.



L'approccio che i ricercatori hanno affrontato si chiama basato sul contenuto e prevede la descrizione di oggetti in un'immagine analizzando caratteristiche come colore, trama e linee. Questi oggetti possono essere rappresentati da insiemi di caratteristiche e quindi confrontati con gli insiemi estratti da altre immagini. I set di funzionalità sono descritti dalle loro statistiche e il computer cerca corrispondenze statisticamente probabili.

Multimedia

  • Ricerca immagini

La nuova ricerca si basa su questo approccio, ma aggiunge un passaggio intermedio, afferma Pedro Moreno, un ingegnere di ricerca di Google che ha lavorato al progetto. Moreno spiega che questo nuovo passaggio fornisce un'etichetta semantica o un tag di parole che descrive gli oggetti nelle immagini invece di basarsi esclusivamente su insiemi di numeri.

Ad esempio, considera di inviare l'immagine di un cane su un prato. Gli oggetti nelle immagini vengono analizzati e confrontati con i risultati per categorie note di oggetti, come cani, gatti o pesci. Quindi il computer fornisce un'analisi statistica che dà la probabilità che un'immagine corrisponda a quelle categorie. Il sistema potrebbe assegnare un punteggio all'immagine con una probabilità del 60% che l'oggetto principale sia un cane e una probabilità del 20% che sia un gatto o un pesce. Pertanto, il computer ritiene che, con ogni probabilità, l'immagine contenga l'immagine di un cane. L'idea chiave è rappresentare le immagini in questo spazio semantico, dice Moreno. Questo sembra migliorare significativamente le prestazioni.



Il sistema dei ricercatori ha acquisito la sua esperienza venendo esposto a migliaia di immagini che includevano oggetti come montagne, fiori, persone, acqua e tigri, nonché i tag semantici che corrispondevano agli oggetti. Quindi i ricercatori hanno testato le prestazioni del sistema esponendolo a nuove immagini che includevano oggetti non ancora etichettati. Se confrontato con la descrizione di una scena fatta da un umano, il sistema ha funzionato bene: l'immagine di una tigre nell'erba alta ha spinto il sistema a trovare gatto, tigre, piante, foglie ed erba. Una didascalia creata dall'uomo includeva gatto, tigre, foresta ed erba. E quando i ricercatori hanno confrontato i tag del loro sistema con approcci basati sui contenuti più tipici, hanno scoperto che funzionava meglio di circa il 40%. In altre parole, produceva meno parole che non erano applicabili all'immagine.

Larry Zitnick, un ricercatore di ricerca di immagini presso Microsoft, afferma che la ricerca sta spingendo i limiti della ricerca basata sui contenuti per vedere come può funzionare. Quello che stanno facendo è analizzare fino a che punto possiamo andare in base a [cercare un'immagine per oggetti], e questo è davvero buono per spingere la busta. Sospetta anche che l'approccio potrebbe funzionare bene per grandi serie di immagini, come quelle su Internet.

Zitnick aggiunge che i risultati UCSD potrebbero essere ottimi per alcuni tipi di semplici ricerche di oggetti nelle immagini. Tuttavia, non funzionerebbe per altre ricerche, come distinguere l'edificio del Campidoglio degli Stati Uniti dall'edificio del Campidoglio dello stato a Lincoln, NE. I problemi visivi sono molto difficili e non credo che una soluzione risolverà tutto, dice Zitnick.



Tuttavia, l'approccio dei ricercatori potrebbe essere utile se integrato nel software di ricerca esistente, afferma Chuck Rosenberg, un ingegnere del software di Google che lavora sulla ricerca di immagini. Se incorporato nella ricerca desktop, l'approccio potrebbe consentire alle persone di cercare immagini in base alla somiglianza dell'aspetto. Ma non aiuterebbe necessariamente le persone a trovare immagini basate su concetti più oscuri come la felicità. Ad esempio, dice Rosenberg, potrei volere una foto di una famiglia felice fuori per una passeggiata serale da mettere su un biglietto che sto facendo. Per un computer trovare veramente quell'immagine basandosi solo sul contenuto dell'immagine... va oltre la tecnologia attuale.

Vasconcelos dell'UCSD sospetta che passeranno più di cinque anni prima che i computer siano in grado di identificare concetti più difficili, come la felicità, nelle immagini. Ma ciò non significa che la ricerca attuale non sarà utile prima di allora, dice. L'aspettativa deve essere che [la tecnologia] sia più come un aiuto, non come una risposta.

nascondere