Come l'informatica si è trasformata

Jeanette Wing crede che un'IA affidabile e un ragionamento causale possano aiutare la società a risolvere i problemi del mondo reale. Ma non sarà facile.





27 ottobre 2021 Jeannette Wing alla Columbia University

Peter Garritano

È ora che iniziamo a concentrarci sui dati per risolvere i nostri problemi, afferma uno dei massimi esperti mondiali di scienza dei dati.

Nel 2006, Jeannette Wing, allora capo del dipartimento di informatica della Carnegie Mellon University, ha pubblicato un influente saggio intitolato pensiero computazionale, sostenendo che tutti trarrebbero vantaggio dall'uso degli strumenti concettuali dell'informatica per risolvere problemi in tutte le aree dell'attività umana.



La questione informatica

Questa storia faceva parte del nostro numero di novembre 2021

  • Vedi il resto del problema
  • sottoscrivi

La stessa Wing non ha mai avuto intenzione di studiare informatica. A metà degli anni '70, è entrata al MIT per dedicarsi all'ingegneria elettrica, ispirata da suo padre, un professore in quel campo. Quando ha scoperto il suo interesse per l'informatica, lo ha chiamato per chiedergli se fosse una moda passeggera. Dopotutto, il campo non aveva nemmeno i libri di testo. Le assicurò che non lo era. Wing ha cambiato major e non ha mai guardato indietro.

Ex vicepresidente aziendale di Microsoft Research e ora vicepresidente esecutivo per la ricerca presso la Columbia University, Wing è leader nella promozione della scienza dei dati in più discipline.



Anil Anantaswamy ha recentemente chiesto a Wing della sua ambiziosa agenda per promuovere un'IA affidabile, una delle 10 sfide di ricerca è stata identificata nel suo tentativo di rendere i sistemi di intelligenza artificiale più equi e meno parziali.

D: Diresti che è in corso una trasformazione nel modo in cui viene eseguito il calcolo?

R: Assolutamente. La legge di Moore ci ha portato lontano. Sapevamo che avremmo raggiunto il tetto massimo per la legge di Moore, [quindi] il calcolo parallelo è diventato famoso. Ma il cambiamento di fase è stato il cloud computing. I file system distribuiti originali erano una sorta di baby cloud computing, in cui i tuoi file non erano locali sulla tua macchina; erano da qualche altra parte sul server. Il cloud computing lo prende e lo amplifica ancora di più, dove i dati non sono vicino a te; il calcolo non è vicino a te.



Il prossimo turno riguarda i dati. Per molto tempo ci siamo concentrati sui cicli, rendendo le cose più veloci: processori, CPU, GPU e più server paralleli. Abbiamo ignorato la parte dei dati. Ora dobbiamo fissarci sui dati.

D: Questo è il dominio della scienza dei dati. Come lo definiresti? Quali sono le sfide dell'utilizzo dei dati?

A: Ho una definizione molto sintetica. La scienza dei dati è lo studio dell'estrazione di valore dai dati.



Non puoi semplicemente darmi un mucchio di dati grezzi e premo un pulsante e il valore esce. Inizia con la raccolta, l'elaborazione, l'archiviazione, la gestione, l'analisi e la visualizzazione dei dati, per poi interpretare i risultati. Lo chiamo il ciclo di vita dei dati. Ogni passo in quel ciclo è un sacco di lavoro.

D: Quando si utilizzano big data, spesso emergono preoccupazioni in merito a privacy, sicurezza, equità e pregiudizi. Come si affrontano questi problemi, specialmente nell'IA?

A: Ho questa nuova agenda di ricerca che sto promuovendo. La chiamo IA affidabile, ispirata dai decenni di progressi che abbiamo fatto nell'informatica affidabile. Per affidabilità, di solito intendiamo sicurezza, affidabilità, disponibilità, privacy e usabilità. Negli ultimi due decenni, abbiamo fatto molti progressi. Abbiamo metodi formali che possono assicurare la correttezza di un pezzo di codice; abbiamo protocolli di sicurezza che aumentano la sicurezza di un particolare sistema. E abbiamo alcune nozioni di privacy che sono formalizzate.

L'IA affidabile alza la posta in due modi. All'improvviso, stiamo parlando di robustezza ed equità: robustezza significa che se si perturba l'input, l'output non è disturbato di molto. E stiamo parlando di interpretabilità. Queste sono cose di cui non parlavamo mai quando parlavamo di informatica.

[Inoltre,] i sistemi di IA sono di natura probabilistica. I sistemi informatici del passato sono fondamentalmente macchine deterministiche: sono accese o spente, vero o falso, sì o no, 0 o uno . I risultati dei nostri sistemi di intelligenza artificiale sono fondamentalmente probabilità. Se ti dico che la tua radiografia dice che hai il cancro, è con, diciamo, 0,75 probabilità che quella piccola macchia bianca che ho visto sia maligna.

Quindi ora dobbiamo vivere in questo mondo di probabilità. Da un punto di vista matematico, utilizza la logica probabilistica e introduce molte statistiche e ragionamenti stocastici e così via. Come scienziato informatico, non sei addestrato a pensare in questi modi. Quindi i sistemi di intelligenza artificiale hanno davvero complicato il nostro ragionamento formale su questi sistemi.

D: L'IA affidabile è una delle 10 sfide di ricerca hai identificato per i data scientist. La causalità sembra essere un altro grosso problema.

A: La causalità, credo, sia la prossima frontiera per l'IA e l'apprendimento automatico. Al momento, gli algoritmi e i modelli di apprendimento automatico sono bravi a trovare modelli, correlazioni e associazioni. Ma non possono dirci: è stato questo a causare ciò? O se dovessi farlo, cosa accadrebbe? E quindi c'è un'altra intera area di attività sull'inferenza causale e sul ragionamento causale nell'informatica. La comunità statistica ha esaminato la causalità per decenni. A volte si arrabbiano un po' con la comunità informatica per aver pensato che Oh, questa è un'idea nuova di zecca. Quindi voglio dare credito alla comunità statistica per i loro contributi fondamentali alla causalità. La combinazione di big data e ragionamento causale può davvero far avanzare il campo.

D: Sei entusiasta di ciò che la scienza dei dati può ottenere?

A: Tutti si scervellano per la scienza dei dati, perché vedono i loro campi trasformati dall'uso dei metodi della scienza dei dati sui dati digitali che ora stanno generando, producendo, raccogliendo e così via. È un momento molto eccitante.

nascondere