Per la maggior parte della storia dell’Intelligenza Artificiale (AI), molti ricercatori si aspettavano che la costruzione di sistemi veramente capaci avrebbe richiesto una lunga serie di scoperte scientifiche: algoritmi rivoluzionari, intuizioni approfondite sulla cognizione umana o progressi fondamentali nella nostra comprensione del cervello. Mentre i progressi scientifici hanno giocato un ruolo, i recenti progressi dell’IA hanno rivelato un’intuizione inaspettata: gran parte del recente miglioramento delle capacità di IA è derivato semplicemente dal ridimensionamento dei sistemi di IA esistenti.1
In questo caso, scalare significa distribuire più potenza di calcolo, utilizzare set di dati più grandi e costruire modelli più grandi. Questo approccio ha funzionato sorprendentemente bene finora.2 Solo pochi anni fa, i sistemi di intelligenza artificiale all’avanguardia avevano difficoltà con attività di base come il conteggio.34 Oggi sono in grado di risolvere complessi problemi matematici, scrivere software, creare immagini e video estremamente realistici e discutere di argomenti accademici.
Questo articolo fornirà una breve panoramica della scalabilità nell’intelligenza artificiale negli ultimi anni. I dati provengono da Epoch, un’organizzazione che analizza le tendenze nell’informatica, nei dati e negli investimenti per capire dove potrebbe essere diretta l’intelligenza artificiale.5 Epoch mantiene il set di dati più ampio sui modelli di intelligenza artificiale e pubblica regolarmente dati chiave sulla crescita e il cambiamento dell’intelligenza artificiale.
Analizziamo brevemente cosa significa ridimensionamento nell’intelligenza artificiale. La scalabilità consiste nell’aumentare tre elementi principali durante l’addestramento, che in genere devono crescere insieme:
- La quantità di dati utilizzati per l’addestramento dell’IA;
- La taglia del modello, misurata in “parametri”;
- Risorse computazionali, spesso chiamate “calcolo” nell’intelligenza artificiale.
L’idea è semplice ma potente: i sistemi di intelligenza artificiale più grandi, addestrati su più dati e che utilizzano più risorse computazionali, tendono a funzionare meglio. Anche senza modifiche sostanziali agli algoritmi, questo approccio spesso porta a prestazioni migliori in molte attività.6
Ecco un altro motivo per cui questo è importante: man mano che i ricercatori ampliano questi sistemi di intelligenza artificiale, non solo migliorano nei compiti per i quali sono stati addestrati, ma a volte possono portarli a sviluppare nuove abilità che non avevano su scala ridotta.7 Ad esempio, i modelli linguistici inizialmente avevano difficoltà con semplici test aritmetici come l’addizione a tre cifre, ma i modelli più grandi potevano gestirli facilmente una volta raggiunta una certa dimensione.8 La transizione non è stata un miglioramento graduale e incrementale, ma un salto più brusco nelle capacità.
Questo brusco salto di capacità, piuttosto che un miglioramento costante, può essere preoccupante. Se, ad esempio, i modelli sviluppano improvvisamente comportamenti inaspettati e potenzialmente dannosi semplicemente a causa dell’ingrandimento, sarebbe più difficile anticiparli e controllarli.
Ciò rende importante il monitoraggio di queste metriche.
Man mano che i modelli di intelligenza artificiale crescono in termini di dati e parametri, richiedono risorse computazionali esponenzialmente maggiori. Queste risorse, comunemente denominate “calcolo” nella ricerca sull’intelligenza artificiale, sono in genere misurate in operazioni a virgola mobile totali (“FLOP”), in cui ogni FLOP rappresenta un singolo calcolo aritmetico come l’addizione o la moltiplicazione.
Le esigenze computazionali per l’addestramento dell’IA sono cambiate radicalmente nel tempo. Con i loro modesti dati e conteggi dei parametri, i primi modelli potevano essere addestrati in ore su hardware semplice. I modelli più avanzati di oggi richiedono centinaia di giorni di calcoli continui, anche con decine di migliaia di computer per scopi speciali.