Aggiungi “Diplomazia” all’elenco dei giochi a cui l’IA può giocare così come gli umani

I sistemi di apprendimento automatico hanno spazzato via i loro avversari umani per oltre un decennio (seriamente, la prima vittoria di Watson Jeopardy risale al 2011), sebbene i tipi di giochi in cui eccellono siano piuttosto limitati. In genere giochi da tavolo o videogiochi competitivi che utilizzano un campo di gioco limitato, mosse sequenziali e almeno un avversario chiaramente definito, qualsiasi gioco che richieda lo scricchiolio di numeri va a loro vantaggio. La diplomazia, tuttavia, richiede pochissimi calcoli, richiedendo invece ai giocatori di negoziare direttamente con i loro avversari e di effettuare le rispettive giocate contemporaneamente: cose che i moderni sistemi ML non sono generalmente progettati per fare. Ma ciò non ha impedito ai ricercatori di Meta di progettare un agente di intelligenza artificiale in grado di negoziare posizioni politiche globali così come qualsiasi ambasciatore delle Nazioni Unite.

Diplomacy è stato rilasciato per la prima volta nel 1959 e funziona come una versione più raffinata di RISK in cui da due a sette giocatori assumono i ruoli di una potenza europea e tentano di vincere la partita conquistando i territori degli avversari. A differenza di RISK, in cui l’esito dei conflitti viene deciso con un semplice lancio di dadi, Diplomacy richiede ai giocatori di negoziare l’uno con l’altro — stabilendo alleanze, pugnalate alle spalle, tutta quella roba buona — prima che tutti muovano i loro pezzi contemporaneamente durante la successiva fase di gioco. Le capacità di leggere e manipolare gli avversari, convincere i giocatori a formare alleanze e pianificare strategie complesse, navigare in delicate partnership e sapere quando cambiare lato, sono tutte una parte enorme del gioco e tutte abilità che generalmente mancano ai sistemi di apprendimento automatico.

Mercoledì, i ricercatori di Meta AI hanno annunciato di aver superato queste carenze di apprendimento automatico con CICERO, la prima IA a mostrare prestazioni a livello umano in Diplomazia. La squadra ha allenato Cicerone su 2,7 miliardi di parametri nel corso di 50.000 round su webDiplomacy.net, una versione online del gioco, dove è finito al secondo posto (su 19 partecipanti) in un torneo di lega da 5 partite, il tutto raddoppiando il punteggio medio dei suoi avversari.

L’agente di intelligenza artificiale si è dimostrato così abile “nell’usare il linguaggio naturale per negoziare con le persone in Diplomazia che spesso hanno preferito lavorare con CICERO rispetto ad altri partecipanti umani”, ha osservato il team di Meta in un comunicato stampa mercoledì. “La diplomazia è un gioco che riguarda le persone piuttosto che i pezzi. Se un agente non è in grado di riconoscere che qualcuno sta probabilmente bluffando o che un altro giocatore vedrebbe una certa mossa come aggressiva, perderà rapidamente la partita. Allo stesso modo, se non parla come una persona reale, mostrando empatia, costruendo relazioni e parlando con cognizione di causa del gioco, non troverà altri giocatori disposti a lavorarci”.

Meta

In sostanza, Cicero combina la mentalità strategica di Pluribot o AlphaGO con le capacità di elaborazione del linguaggio naturale (NLP) di Blenderbot o GPT-3. L’agente è anche capace di previdenza. “Cicerone può dedurre, ad esempio, che più avanti nel gioco avrà bisogno del supporto di un particolare giocatore, e quindi elaborare una strategia per ottenere il favore di quella persona – e persino riconoscere i rischi e le opportunità che quel giocatore vede dal suo particolare punto di vista vista”, ha osservato il team di ricerca.

L’agente non si addestra attraverso uno schema di apprendimento per rinforzo standard come fanno sistemi simili. Il team di Meta spiega che ciò porterebbe a prestazioni non ottimali poiché “affidarsi esclusivamente all’apprendimento supervisionato per scegliere azioni basate su dialoghi passati si traduce in un agente relativamente debole e altamente sfruttabile”.

Invece Cicerone utilizza “un algoritmo di pianificazione iterativo che bilancia la coerenza del dialogo con la razionalità”. Per prima cosa prevederà le giocate dei suoi avversari in base a ciò che è accaduto durante il round di negoziazione, nonché a quale giocata pensa che i suoi avversari pensino che farà prima di “migliorare iterativamente queste previsioni cercando di scegliere nuove politiche che hanno un valore atteso più elevato dato l’altro le politiche previste dai giocatori, cercando anche di mantenere le nuove previsioni vicine a quelle originali”. Facile, vero?

Il sistema non è ancora infallibile, poiché l’agente di tanto in tanto diventa troppo intelligente e finisce giocando se stesso assumendo posizioni negoziali contraddittorie. Tuttavia, la sua prestazione in questi primi processi è superiore a quella di molti politici umani. Meta prevede di continuare a sviluppare il sistema per “fungere da sandbox sicuro per far avanzare la ricerca nell’interazione uomo-IA”.

Tutti i prodotti consigliati da Engadget sono selezionati dalla nostra redazione, indipendente dalla nostra casa madre. Alcune delle nostre storie includono link di affiliazione. Se acquisti qualcosa tramite uno di questi link, potremmo guadagnare una commissione di affiliazione. Tutti i prezzi sono corretti al momento della pubblicazione.

Leave a Comment