Facebook vuole che le macchine vedano il mondo attraverso i nostri occhi

Revisione della tecnologia del MIT | Envato





Diamo per scontato che le macchine possano riconoscere ciò che vedono nelle foto e nei video. Questa capacità si basa set di dati di grandi dimensioni come ImageNet , una raccolta curata a mano di milioni di foto utilizzate per addestrare la maggior parte dei migliori modelli di riconoscimento delle immagini dell'ultimo decennio.

Ma le immagini in questi set di dati ritraggono un mondo di oggetti curati, una galleria di immagini che non cattura il caos della vita quotidiana così come la vivono gli esseri umani. Fare in modo che le macchine vedano le cose come noi richiederà un approccio completamente nuovo. E il laboratorio di intelligenza artificiale di Facebook vuole prendere l'iniziativa.

Sta dando il via a un progetto, chiamato Ego4D , per creare IA in grado di comprendere scene e attività viste da una prospettiva in prima persona: come appaiono le cose alle persone coinvolte, piuttosto che a uno spettatore. Pensa a filmati GoPro sfocati nel vivo dell'azione, invece di scene ben inquadrate scattate da qualcuno in disparte. Facebook vuole che Ego4D faccia per i video in prima persona ciò che ImageNet ha fatto per le foto.



Perché Facebook sta usando Ray-Ban per rivendicare i nostri volti

Per costruire il metaverso, Facebook ha bisogno che ci abituiamo agli occhiali intelligenti.

Negli ultimi due anni, Facebook AI Research (FAIR) ha collaborato con 13 università in tutto il mondo per assemblare il più grande set di dati mai realizzato di video in prima persona, in particolare per addestrare modelli di riconoscimento delle immagini di deep learning. Le IA addestrate sul set di dati saranno migliori nel controllare i robot che interagiscono con le persone o nell'interpretare le immagini dagli occhiali intelligenti. Le macchine potranno aiutarci nella nostra vita quotidiana solo se capiranno davvero il mondo attraverso i nostri occhi, afferma Kristen Grauman di FAIR, che guida il progetto.

Tale tecnologia potrebbe supportare le persone che hanno bisogno di assistenza in casa o guidare le persone nei compiti che stanno imparando a completare. Il video in questo set di dati è molto più vicino a come gli esseri umani osservano il mondo, afferma Michael Ryoo, un ricercatore di computer vision presso Google Brain e Stony Brook University di New York, che non è coinvolto in Ego4D.



Ma i potenziali abusi sono chiari e preoccupanti. La ricerca è finanziata da Facebook, un gigante dei social media che è stato recentemente accusato dal Senato degli Stati Uniti di mettere i profitti al di sopra del benessere delle persone — come confermato da MIT Technology Review proprie indagini .

Il modello di business di Facebook e di altre società Big Tech è quello di strappare quanti più dati possibile dal comportamento online delle persone e venderli agli inserzionisti. L'intelligenza artificiale delineata nel progetto potrebbe estendere tale portata al comportamento offline quotidiano delle persone, rivelando quali oggetti ci sono intorno a casa tua, quali attività ti sono piaciute, con chi hai trascorso del tempo e persino dove indugiava il tuo sguardo: un livello senza precedenti di informazioni personali.

C'è del lavoro sulla privacy che deve essere fatto mentre lo porti fuori dal mondo della ricerca esplorativa e in qualcosa che è un prodotto, dice Grauman. Quel lavoro potrebbe anche essere ispirato da questo progetto.



FACEBOOK

Il più grande set di dati precedente di video in prima persona consiste in 100 ore di filmati di persone in cucina. Il set di dati Ego4D è costituito da 3.025 ore di video registrate da 855 persone in 73 località diverse in nove paesi (Stati Uniti, Regno Unito, India, Giappone, Italia, Singapore, Arabia Saudita, Colombia e Ruanda).

I partecipanti avevano età e background diversi; alcuni furono reclutati per le loro occupazioni visivamente interessanti, come fornai, meccanici, carpentieri e paesaggisti.

I set di dati precedenti consistevano in genere in clip video semi-scripted della durata di pochi secondi. Per Ego4D, i partecipanti hanno indossato videocamere montate sulla testa per un massimo di 10 ore alla volta e hanno catturato video in prima persona di attività quotidiane senza copione, tra cui camminare lungo una strada, leggere, fare il bucato, fare shopping, giocare con animali domestici, giocare a giochi da tavolo e interagire con altre persone. Alcuni filmati includono anche audio, dati su dove era focalizzato lo sguardo dei partecipanti e più prospettive sulla stessa scena. È il primo set di dati del suo genere, afferma Ryoo.



FAIR ha anche lanciato una serie di sfide che spera concentreranno gli sforzi di altri ricercatori sullo sviluppo di questo tipo di IA. Il team prevede algoritmi integrati negli occhiali intelligenti, come I Ray-Ban recentemente annunciati da Facebook , che registrano e registrano la vita quotidiana di chi le indossa. Significa che le app metaverse di realtà aumentata o virtuale potrebbero, in teoria, rispondere a domande come Dove sono le chiavi della mia macchina? o cosa ho mangiato e a chi mi sono seduto accanto durante il mio primo volo per la Francia? Gli assistenti di realtà aumentata potrebbero capire cosa stai cercando di fare e offrire istruzioni o utili spunti sociali.

È roba di fantascienza, ma più vicina di quanto pensi, dice Grauman. Grandi set di dati accelerano la ricerca. ImageNet ha portato grandi progressi in breve tempo, dice. Possiamo aspettarci lo stesso per Ego4D, ma per le viste in prima persona del mondo invece delle immagini di Internet.

Una volta raccolte le riprese, i lavoratori in crowdsourcing in Ruanda hanno trascorso un totale di 250.000 ore guardando le migliaia di videoclip e scrivendo milioni di frasi che descrivono le scene e le attività girate. Queste annotazioni verranno utilizzate per addestrare le IA a capire cosa stanno guardando.

I set di dati pieni di errori stanno alterando il nostro senso di quanto sia buona l'IA

La nostra comprensione dei progressi nell'apprendimento automatico è stata influenzata da dati di test errati.

Resta da vedere dove finirà questa tecnologia e quanto velocemente si svilupperà. FAIR sta pianificando una competizione basata sulle sue sfide nel giugno 2022. È anche importante notare che FAIR, il laboratorio di ricerca, non è la stessa cosa di Facebook, il megalodonte dei media. In effetti, lo dicono gli addetti ai lavori Facebook ha ignorato le correzioni tecniche che FAIR ha escogitato per i suoi algoritmi tossici . Ma Facebook sta pagando per la ricerca, ed è falso fingere che l'azienda non sia molto interessata alla sua applicazione.

Sam Gregory di Witness, un'organizzazione per i diritti umani specializzata in tecnologia video, afferma che questa tecnologia potrebbe essere utile per gli astanti che documentano proteste o abusi da parte della polizia. Ma pensa che questi vantaggi siano controbilanciati dalle preoccupazioni relative alle applicazioni commerciali. Osserva che è possibile identificare le persone da come tengono una videocamera. I dati di Gaze sarebbero ancora più rivelatori: è un indicatore di interesse molto forte, dice. Come verranno archiviati i dati dello sguardo? A chi sarà accessibile? Come potrebbe essere elaborato e utilizzato?

La reputazione e il modello di business principale di Facebook suonano molti campanelli d'allarme, afferma Rory Mir della Electronic Frontier Foundation. A questo punto molti sono consapevoli della scarsa esperienza di Facebook sulla privacy e del loro uso della sorveglianza per influenzare gli utenti, sia per mantenere gli utenti agganciati sia per vendere quell'influenza ai loro clienti paganti, gli inserzionisti. Quando si tratta di realtà aumentata e virtuale, Facebook sta cercando un vantaggio competitivo, afferma Mir: È essenziale espandere la quantità e i tipi di dati che raccoglie.

Alla domanda sui suoi piani, Facebook è stato ovviamente a bocca chiusa: Ego4D è puramente una ricerca per promuovere i progressi nella più ampia comunità scientifica, afferma un portavoce. Non abbiamo nulla da condividere oggi sulle applicazioni dei prodotti o sull'uso commerciale.

nascondere