Kurzweil risponde: non sottovalutare la singolarità

Sebbene Paul Allen parafrasi il mio libro del 2005, La singolarità è vicina , nel titolo del suo saggio (coscritto con il suo collega Mark Greaves), sembra che non abbia effettivamente letto il libro. La sua unica citazione è a un saggio che ho scritto nel 2001 (La legge dei ritorni accelerati) e il suo articolo non riconosce né risponde alle argomentazioni che effettivamente sostengo nel libro.





Credito: revisione della tecnologia

Quando il mio libro del 1999, L'era delle macchine spirituali, è stato pubblicato, e ampliato un paio di anni dopo dal saggio del 2001, ha generato diverse linee di critica, come La legge di Moore finirà, le capacità hardware potrebbero espandersi in modo esponenziale ma il software è bloccato nel fango, il cervello è troppo complicato, ci sono capacità nel cervello che intrinsecamente non possono essere replicate nel software, e molti altri. ho scritto apposta La singolarità è vicina per rispondere a quelle critiche.

Non posso dire che Allen sarebbe stato necessariamente convinto dalle argomentazioni che faccio nel libro, ma almeno avrebbe potuto rispondere a ciò che ho effettivamente scritto. Invece, offre ancora argomenti come se nulla fosse mai stato scritto per rispondere a questi problemi. Le descrizioni di Allen delle mie posizioni sembrano essere tratte dal mio saggio di 10 anni. Mentre continuo a sostenere quel saggio, Allen non riassume correttamente le mie posizioni nemmeno da quel saggio.



Allen scrive che la Legge dei ritorni accelerati (LOAR)... non è una legge fisica. Vorrei sottolineare che la maggior parte delle leggi scientifiche non sono leggi fisiche, ma risultano dalle proprietà emergenti di un gran numero di eventi a un livello più fine. Un classico esempio sono le leggi della termodinamica (LOT). Se osservi la matematica alla base del LOT, modellano ogni particella come se seguisse una passeggiata casuale. Quindi, per definizione, non possiamo prevedere dove sarà una particolare particella in qualsiasi momento futuro. Eppure le proprietà complessive del gas sono altamente prevedibili con un alto grado di precisione secondo il legislazione di termodinamica. Così è con la legge dei rendimenti accelerati. Ogni progetto tecnologico e contributore è imprevedibile, tuttavia la traiettoria complessiva quantificata dalle misure di base del rapporto prezzo-prestazioni e della capacità segue comunque percorsi notevolmente prevedibili.

Se la tecnologia informatica fosse perseguita solo da una manciata di ricercatori, sarebbe davvero imprevedibile. Ma è perseguito da un sistema sufficientemente dinamico di progetti competitivi che una misura di base come le istruzioni al secondo per dollaro costante segue un percorso esponenziale molto regolare che risale al censimento americano del 1890. Discuto ampiamente le basi teoriche per il LOAR nel mio libro, ma il caso più forte è costituito dall'ampia evidenza empirica che io e altri presentiamo.

Allen scrive che queste 'leggi' funzionano finché non funzionano. Qui Allen confonde i paradigmi con la traiettoria in corso di un'area di base della tecnologia dell'informazione. Se stavamo esaminando la tendenza a creare tubi a vuoto sempre più piccoli, il paradigma per migliorare il calcolo negli anni '50, è vero che questa tendenza specifica è continuata fino a quando non è andata avanti. Ma quando la fine di questo particolare paradigma è diventata chiara, la pressione della ricerca è cresciuta per il paradigma successivo. La tecnologia dei transistor ha mantenuto in piedi il trend di fondo della crescita esponenziale del rapporto prezzo-prestazioni, che ha portato al quinto paradigma (legge di Moore) e alla continua compressione delle funzionalità sui circuiti integrati. Ci sono state previsioni regolari sulla fine della legge di Moore. Il roadmap dell'industria dei semiconduttori progetti intitolati caratteristiche a sette nanometri entro i primi anni 2020. A quel punto, le caratteristiche chiave saranno la larghezza di 35 atomi di carbonio e sarà difficile continuare a ridurli. Tuttavia, Intel e altri produttori di chip stanno già facendo i primi passi verso il sesto paradigma, che consiste nell'elaborare in tre dimensioni per continuare a migliorare esponenzialmente le prestazioni dei prezzi. Intel prevede che i chip tridimensionali saranno diffusi negli anni dell'adolescenza. Sono già stati introdotti transistor tridimensionali e chip di memoria tridimensionali.



Questo sesto paradigma manterrà il LOAR in funzione per quanto riguarda l'andamento dei prezzi dei computer fino al punto, più avanti in questo secolo, in cui mille dollari di calcolo saranno trilioni di volte più potenti del cervello umano. [uno] E sembra che Allen e io siamo almeno d'accordo su quale livello di calcolo è richiesto per simulare funzionalmente il cervello umano. [Due]

Allen prosegue poi con l'argomento standard che il software non sta progredendo nello stesso modo esponenziale dell'hardware. In La singolarità è vicina , affronto a lungo questo problema, citando diversi metodi di misurazione della complessità e della capacità nel software che dimostrano una crescita esponenziale simile. Uno studio recente (Rapporto al Presidente e al Congresso, Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology del President's Council of Advisors on Science and Technology) afferma quanto segue:

Ancora più notevole, e anche meno compreso, è che in molte aree, i guadagni di prestazioni dovuti ai miglioramenti negli algoritmi hanno ampiamente superato anche i notevoli guadagni di prestazioni dovuti all'aumento della velocità del processore . Gli algoritmi che usiamo oggi per il riconoscimento vocale, per la traduzione del linguaggio naturale, per il gioco degli scacchi, per la pianificazione logistica, si sono evoluti notevolmente negli ultimi dieci anni... Ecco solo un esempio, fornito dal professor Martin Grötschel di Konrad-Zuse-Zentrum für Informationstechnik Berlino. Grötschel, un esperto di ottimizzazione, osserva che un modello di pianificazione della produzione di riferimento risolto utilizzando la programmazione lineare avrebbe impiegato 82 anni per essere risolto nel 1988, utilizzando i computer e gli algoritmi di programmazione lineare dell'epoca. Quindici anni dopo, nel 2003, questo stesso modello poteva essere risolto in circa un minuto, un miglioramento di un fattore di circa 43 milioni. Di questi, un fattore di circa 1.000 era dovuto all'aumento della velocità del processore, mentre un fattore di circa 43.000 era dovuto a miglioramenti negli algoritmi! Grötschel cita anche un miglioramento algoritmico di circa 30.000 per la programmazione mista intera tra il 1991 e il 2008. La progettazione e l'analisi degli algoritmi e lo studio della complessità computazionale intrinseca dei problemi sono sottocampi fondamentali dell'informatica.



Cito molti altri esempi come questo nel libro. [3]

Per quanto riguarda l'intelligenza artificiale, Allen è pronto a liquidare Watson di IBM come stretto, rigido e fragile. Ho la sensazione che Allen respingerebbe qualsiasi dimostrazione a meno di un valido superamento del test di Turing. Vorrei sottolineare che Watson non è così ristretto. Si occupa di una vasta gamma di conoscenze umane ed è in grado di trattare forme sottili di linguaggio, inclusi giochi di parole, similitudini e metafore. Non è perfetto, ma nemmeno gli umani lo sono, ed è stato abbastanza buono per ottenere un punteggio più alto dei migliori due umani Pericolo! giocatori messi insieme.

Allen scrive che Watson è stato messo insieme dagli scienziati stessi, costruendo ogni collegamento di conoscenza ristretta in aree specifiche. Sebbene alcune aree della conoscenza di Watson siano state programmate direttamente, secondo IBM, Watson ha acquisito la maggior parte delle sue conoscenze da solo leggendo documenti in linguaggio naturale come le enciclopedie. Questo rappresenta il suo punto di forza. Non solo è in grado di comprendere il linguaggio contorto in Pericolo! query (risposte alla ricerca di una domanda), ma ha acquisito la sua conoscenza leggendo grandi quantità di documenti in linguaggio naturale. IBM sta ora lavorando con Nuance (un'azienda che ho originariamente fondato come Kurzweil Computer Products) per far leggere a Watson decine di migliaia di articoli medici per creare un medico diagnostico.



Una parola sulla natura della comprensione di Watson è d'obbligo qui. È stato scritto molto sul fatto che Watson lavora attraverso la conoscenza statistica piuttosto che la vera comprensione. Molti lettori interpretano ciò nel senso che Watson sta semplicemente raccogliendo statistiche sulle sequenze di parole. Il termine informazione statistica nel caso di Watson si riferisce a coefficienti distribuiti in metodi auto-organizzati come i modelli di Markov. Si potrebbe facilmente riferirsi alle concentrazioni di neurotrasmettitori distribuiti nella corteccia umana come informazioni statistiche. In effetti, risolviamo le ambiguità più o meno allo stesso modo di Watson, considerando la probabilità di diverse interpretazioni di una frase.

Allen scrive: Ogni struttura [nel cervello] è stata modellata con precisione da milioni di anni di evoluzione per fare una cosa particolare, qualunque essa sia. Non è come un computer, con miliardi di transistor identici in normali array di memoria controllati da una CPU con pochi elementi diversi. Nel cervello, ogni singola struttura e circuito neurale è stato affinato individualmente dall'evoluzione e da fattori ambientali.

L'affermazione di Allen secondo cui ogni struttura e circuito neurale è unico è semplicemente impossibile. Ciò significherebbe che la progettazione del cervello richiederebbe centinaia di trilioni di byte di informazioni. Eppure il design del cervello (come il resto del corpo) è contenuto nel genoma. E mentre la traduzione del genoma in un cervello non è semplice, il cervello non può avere più informazioni di progettazione del genoma. Si noti che le informazioni epigenetiche (come i peptidi che controllano l'espressione genica) non si aggiungono in modo apprezzabile alla quantità di informazioni nel genoma. L'esperienza e l'apprendimento aumentano in modo significativo la quantità di informazioni, ma lo stesso si può dire dei sistemi di intelligenza artificiale. mi presento La singolarità è vicina che dopo la compressione senza perdite (dovuta alla massiccia ridondanza nel genoma), la quantità di informazioni di progettazione nel genoma è di circa 50 milioni di byte, circa la metà dei quali riguarda il cervello. [4] Non è semplice, ma è un livello di complessità che possiamo affrontare e rappresenta una complessità inferiore rispetto a molti sistemi software nel mondo moderno.

Come possiamo ottenere l'ordine di 100 trilioni di connessioni nel cervello da solo decine di milioni di byte di informazioni di progettazione? Ovviamente, la risposta è attraverso la ridondanza. Ci sono nell'ordine di un miliardo di meccanismi di riconoscimento di schemi nella corteccia. Sono interconnessi in modi intricati, ma anche nelle connessioni c'è una massiccia ridondanza. Il cervelletto ha anche miliardi di modelli ripetuti di neuroni. È vero che le strutture ripetute in modo massiccio nel cervello apprendono diversi elementi di informazione mentre apprendiamo e acquisiamo esperienza, ma la stessa cosa è vera per i sistemi di intelligenza artificiale come Watson.

Dharmendra S. Modha, manager del cognitive computing per IBM Research, scrive : …i neuroanatomisti non hanno trovato una rete irrimediabilmente aggrovigliata, arbitrariamente connessa, completamente idiosincratica per il cervello di ogni individuo, ma invece una grande quantità di strutture ripetitive all'interno di un cervello individuale e una grande quantità di omologia tra le specie … La sorprendente riconfigurabilità naturale dà speranza che gli algoritmi fondamentali della neurocomputazione sono indipendenti dalle specifiche modalità sensoriali o motorie e che gran parte della variazione osservata nella struttura corticale tra le aree rappresenta un perfezionamento di un circuito canonico; è proprio questo circuito canonico che vogliamo decodificare.

Allen articola ciò che descrivo nel mio libro come il pessimismo dello scienziato. Gli scienziati che lavorano sulla prossima generazione sono invariabilmente alle prese con la prossima serie di sfide, quindi se qualcuno descrive come sarà la tecnologia tra 10 generazioni, i suoi occhi si appannano. Uno dei pionieri dei circuiti integrati mi stava descrivendo di recente le difficoltà per passare da dimensioni delle caratteristiche di 10 micron (10.000 nanometri) a caratteristiche di cinque micron (5.000 nanometri) oltre 30 anni fa. Erano cautamente fiduciosi di questo obiettivo, ma quando le persone hanno predetto che un giorno avremmo effettivamente avuto circuiti con dimensioni delle caratteristiche inferiori a un micron (1.000 nanometri), la maggior parte degli scienziati che lottavano per arrivare a cinque micron pensavano che fosse troppo selvaggio da contemplare. Sono state fatte obiezioni sulla fragilità dei circuiti a quel livello di precisione, effetti termici e così via. Bene, oggi Intel sta iniziando a utilizzare chip con lunghezze di gate di 22 nanometri.

Abbiamo visto lo stesso pessimismo con il progetto genoma. A metà del progetto, durato 15 anni, era stato raccolto solo l'1% del genoma e i critici proponevano limiti di base sulla velocità con cui il genoma poteva essere sequenziato senza distruggere le delicate strutture genetiche. Ma la crescita esponenziale sia della capacità che dell'andamento dei prezzi è continuata (entrambi all'incirca raddoppiando ogni anno) e il progetto è stato completato sette anni dopo. Il progetto di decodificare il cervello umano sta facendo progressi simili. È solo di recente, ad esempio, che abbiamo raggiunto una soglia con tecniche di scansione non invasive che possiamo vedere le singole connessioni interneuronali formarsi e attivarsi in tempo reale.

Il freno alla complessità di Allen confonde la foresta con gli alberi. Se vuoi capire, modellare, simulare e ricreare un pancreas, non è necessario ricreare o simulare ogni organello in ogni cellula dell'isola pancreatica. Vorresti, invece, comprendere appieno una cella di Islet, quindi astrarre la sua funzionalità di base e quindi estenderla a un ampio gruppo di tali celle. Questo algoritmo è ben compreso per quanto riguarda le celle delle isole. Ora ci sono pancreas artificiali che utilizzano questo modello funzionale in fase di test. Sebbene ci sia certamente molta più complessità e variazione nel cervello che nelle cellule insulari del pancreas ripetute in modo massiccio, c'è comunque una massiccia ripetizione di funzioni.

Allen interpreta male la mia proposta di conoscere il cervello dalla scansione del cervello per comprenderne la struttura fine. Non è mia proposta simulare un intero cervello dal basso verso l'alto senza comprendere le funzioni di elaborazione delle informazioni. Abbiamo bisogno di capire in dettaglio come funzionano i singoli tipi di neuroni e quindi raccogliere informazioni su come sono collegati i moduli funzionali. I metodi funzionali che derivano da questo tipo di analisi possono quindi guidare lo sviluppo di sistemi intelligenti. Fondamentalmente, stiamo cercando metodi ispirati alla biologia che possano accelerare il lavoro nell'IA, molti dei quali sono progrediti senza informazioni significative su come il cervello svolge funzioni simili. Dal mio lavoro nel riconoscimento vocale, so che il nostro lavoro è stato notevolmente accelerato quando abbiamo acquisito informazioni su come il cervello prepara e trasforma le informazioni uditive.

Il modo in cui queste strutture massicciamente ridondanti nel cervello si differenziano è attraverso l'apprendimento e l'esperienza. L'attuale stato dell'arte dell'IA, tuttavia, consente ai sistemi di apprendere anche dalla propria esperienza. Le auto a guida autonoma di Google (che hanno percorso oltre 140.000 miglia attraverso città e paesi della California) imparano dalla propria esperienza di guida e dalle auto di Google guidate da conducenti umani. Come ho detto, Watson ha appreso la maggior parte delle sue conoscenze leggendo da solo.

È vero che Watson non è del tutto a livelli umani nella sua capacità di comprendere il linguaggio umano (se lo fosse, ora saremmo al livello del test di Turing), eppure è stato in grado di sconfiggere i migliori umani. Ciò è dovuto alla velocità intrinseca e all'affidabilità della memoria dei computer. Quindi, quando un computer raggiungerà i livelli umani, cosa che credo accadrà entro la fine degli anni '20, sarà in grado di uscire sul Web e leggere miliardi di pagine e fare esperienze nei mondi virtuali online. Combinare il riconoscimento di modelli a livello umano con la velocità e l'accuratezza intrinseca dei computer sarà molto potente. Ma questa non è un'invasione aliena di macchine di intelligence: creiamo questi strumenti per renderci più intelligenti. Penso che Allen sarà d'accordo con me che questo è ciò che rende unico la specie umana: costruiamo questi strumenti per estendere la nostra portata.

Ray Kurzweil è un inventore e autore. Il suo ultimo pezzo per Revisione della tecnologia era circa combattere il processo di invecchiamento .

[uno] Capitolo 2, La singolarità è vicina di Ray Kurzweil, Viking, 2005.

[Due] Vedi Endnote 2 in La singolarità non è vicina di Paul G. Allen e Mark Greaves.

[3] capitolo 9, La singolarità è vicina.

[4] Capitolo 4, La singolarità è vicina.

nascondere