Gli agenti AI sanno giocare a Lupus in Fabula e bluffano meglio di te

Sarà capitato anche a voi, in qualche serata tra amici, di stringervi in cerchio e con la giusta situazione: musica d’effetto e luci soffuse, di ricreare una degna atmosfera medievale immersiva, per cui anche Barbero vi avrebbe stretto la mano. E quando tutto era pronto si iniziava a giocare a Lupus in Fabula. Ammetto che noi ci mettevamo un certo impegno nel creare la giusta atmosfera, convinti che la cura della scenografia avesse davvero potuto fare differenza, come se poi non si finisse comunque per litigare e prendersi a sprangate (metaforicamente parlando). Infatti, sono sicura che chiunque abbia giocato a Lupus si ricordi ancora bene le accuse, le infamie, le relazioni incrinate e le amicizie di una vita che hanno subito battute d’arresto sulla fiducia da cui devono ancora riprendersi. Però tutto sommato, al di là di rancori ancora vivi, il Lupus in Fabula rimane un bel gioco che unisce gruppi di amici e regala serate divertenti.

Perché vi sto dicendo tutto questo? Ci arriveremo a breve. Infatti, mi rendo conto che finora ho dato per scontato che tutti quanti sappiano a cosa si stia facendo riferimento in questa prima parte e quindi rimedierò con il darvi alcune informazioni rilevanti che ci saranno utili per comprendere quanto segue in questo articolo. In estrema sintesi, il Lupus in Fabula, noto anche come Werewolf o Mafia, si colloca a metà strada tra un gioco da tavola e uno di ruolo sociale nel quale vengono assegnati vari personaggi come “buoni” e “cattivi” e altre carte con poteri speciali che possono giocare nella partita dei buoni o dei cattivi a seconda del proprio ruolo. Si tratta di un classico gioco di deduzione sociale in cui i cattivi cercano di far fuori i buoni e provano a cavarsela senza farsi scoprire tramite sottili abilità di inganno e persuasione e in cui i buoni devono capire di chi fidarsi, scovare i cattivi per eliminarli, il tutto cercando di non farsi ingannare e uccidere.

Proprio queste dinamiche di inganno e persuasione risultano particolarmente affascinanti per chi si occupa di ricerca su modelli AI. Stanno infatti dando vita a un nuovo filone nel quale si cerca di testare e valutare i grandi modelli linguistici o Large Language Models (LLMs) come GPT e altri, sia proprietari che open-source, sul loro grado di “Intelligenza sociale”. Quest’ultima riguarda la capacità di comprendere le dinamiche sociali, interpretare le intenzioni e i pensieri altrui e, infine, adattare il proprio comportamento al contesto. Attraverso esperimenti basati su giochi di società interattivi, i cui protagonisti sono proprio i vari modelli AI, si cerca di comprendere le loro abilità di deduzione sociale, teoria della mente, inganno e persuasione rispetto allo scenario di riferimento.

Il motivo per cui è interessante comprendere quali condizioni possano innescare alcuni tipi di risposta indesiderabili nei modelli è abbastanza evidente. Infatti, i sistemi AI stanno evolvendo a ritmi spediti, ci basti pensare al modello di business adottato negli ultimi tempi da OpenAI che strizza l’occhiolino al business model tipico di Apple, secondo cui si fanno uscire prodotti a frequenza costante creando grande attesa e hype attorno a questi. Inoltre, l’output degli LLM, ovvero le risposte ai prompt, è controllabile solo in una certa misura tramite guardrails e safety policies che mirano a garantire risposte sicure agli utenti. I modelli AI sono ormai noti per i bias, le allucinazioni e i comportamenti emergenti quali desiderabilità sociale ed eccessiva condiscendenza verso l’utente nelle risposte. Infatti, ora più che mai resta attuale la grande sfida di allineamento delle risposte dei modelli ai valori umani o per lo meno il tentativo di garantire risposte sempre sicure e corrette agli utenti. Questo obiettivo, tuttavia, risulta davvero difficile da implementare nella pratica dando parecchio filo da torcere alle big tech che sviluppano modelli AI.

La verità è che i modelli AI continuano ad essere black box, ovvero “scatole nere” difficilmente controllabili nonostante numerose ricerche nell’ambito dell’Explainability AI stiano provando a esplorare il contenuto di queste scatole. Questo aspetto non deve però far intimorire perché è proprio uno dei lati affascinanti dei modelli AI e sono tali by design dato che questa imprevidibilità è intrinseca e legata alla loro architettura. Il problema si palesa nel momento in cui tali strumenti sono resi disponibili sul mercato e distribuiti su grande scala a utenti che sono esseri umani, e in quanto tali, con bias cognitivi e spesso un eccesso di zelo e fiducia per la novità. In tal senso, è responsabilità delle big tech garantire agli utenti un prodotto sicuro o per lo meno, qualora impossibile azzerare i rischi loro annessi, come in questo caso, tentare di minimizzarli il più possibile.

Un’ulteriore motivazione per cui è così importante comprendere le dinamiche di interazione tra i vari modelli, in ottica di cooperazione e competizione simulata in ambienti controllati, riguarda proprio le loro inevitabili future applicazioni. Infatti, questi modelli anche se ad ora sono stati implementati in modo meno impattante, nei prossimi anni si prevede che saranno sempre più integrati in gran parte dei sistemi afferenti a numerosi ambiti sociali come finanziario, educativo, sanitario e così via. Attualmente si sta andando cauti in ottica di questo processo di integrazione, delegando loro compiti semplici, affidandoli poca autonomia e garantendo un buon livello di supervisione umana a monte. Ma non è così implausibile che in futuro, anche a valle del loro crescente avanzamento, si arriverà a delegare molti più compiti e una maggiore autonomia e si potrebbero presentare degli scenari in cui, per alcuni task, si avranno interazioni tra macchine senza alcun ausilio umano. Ed è proprio in questi contesti che ci interessa comprendere come i modelli possano tra loro interagire.

I ricercatori, infatti, si sono divertiti a far giocare gli agenti AI a una serie di giochi di deduzione sociale simili a Lupus in Fabula per osservare e quantificare i comportamenti che spontaneamente emergono in contesti di simulazione ludica e il loro grado di intelligenza sociale. Ciò che risulta da questi studi è che i modelli mostrano complessivamente delle buone capacità ‘sociali’ nel rilevare inganni, persuadere e persino imbrogliare a loro volta per vincere le partite.

Sono stati condotti vari tipi di esperimenti, alcuni dei quali prevedono o meno il coinvolgimento del fattore umano. Un primo filone vuole indagare le abilità degli LLM nell’individuare i deceivers umani; quindi, sfruttano la loro capacità di ragionamento per scovare tecniche di inganno sulla base di conversazioni e interazioni parziali tra umani nel gioco Mafia [1]. Ciò che emerge da questo studio è che i modelli più avanzati, in particolare il modello GPT-4, ottengono una buona accuratezza nell’identificare i cattivi e in alcune condizioni performano addirittura meglio degli umani. Inoltre, alcuni studi hanno integrato anche modalità multimodali che oltre a permettere ai modelli di mostrare le loro abilità di reasoning sul testo prevedono anche l’osservazione di segnali visivi come espressioni facciali e tono di voce dei giocatori [2]. Infatti, sembrerebbe che, quando ai modelli si forniscono maggiori informazioni sul contesto, si verifichi anche una maggiore accuratezza di previsione da parte di questi. Tuttavia, va sottolineato che sono presenti evidenti limiti delle AI nel cogliere appieno le sfumature e leggere tra le righe.

Altri studi invece si sono focalizzati sulle dinamiche di interazione considerando esclusivamente gli scambi tra agenti AI in giochi come Among Us [3] [4], Werewolf [5] e simili e ciò che emerge è che tutti quanti i modelli mostrano buone abilità di deduzione e strategia usando in modo appropriato anche tecniche retoriche e psicologiche di persuasione. Alcuni di questi lavori che hanno confrontato l’interazione tra i modelli della famiglia Google come Gemini e quelli di OpenAI ovvero GPT mostrano come i primi riescano a scovare l’inganno da parte dei modelli GPT per il fatto che questi, quando colpevoli, intervengono frequentemente e risultano più verbosi e prolissi mentre Gemini si mostrava più propenso ad adottare uno stile comunicativo più asciutto e talvolta anche ironico.

Questo filone valuta le capacità emergenti degli agenti AI in modo spontaneo. Tuttavia, sono stati condotti anche esperimenti volti a migliorare la performance nell’interazione tra agenti tramite tecniche di Reinforcement Learning (RL) addestrando i modelli a discutere in maniera più efficace e strategica e premiandoli quando performano meglio sia nella parte di ascolto attento che in quella di formulazione di stratagemmi persuasivi nelle discussioni [6] [7]. Questi lavori confermano che l’addestramento mirato può far emergere comportamenti agentici ancora più efficaci nell’ambito della deduzione sociale rispetto a quelli ottenuti in modo spontaneo dai modelli linguistici.

Un ulteriore filone che menzionerò si concentra invece sull’interazione tra giocatori umani e agenti AI e ne monitora le performance varie degli uni e degli altri. Un caso degno di nota è sicuramente Cicero, progetto di Meta nel quale giocatori umani si sfidano direttamente con l’agente AI di Meta nel gioco Diplomacy [8]. Questo gioco, infatti, risulta assai complesso in quanto implica l’utilizzo di strategie di cooperazione, competizione, negoziazione e coordinamento tattico tra i vari giocatori. In sintesi, Cicero per riuscire a vincere deve essere molto accurato nel dedurre e prevedere le convinzioni e intenzioni dei giocatori reali e mettere in atto stratagemmi efficaci per ingannarli. La cosa interessante è che questo agente è riuscito a raggiungere delle prestazioni ottime, in alcuni casi, addirittura superiori a quelle dei giocatori umani.

Gli studi sopra citati dimostrano complessivamente come i modelli linguistici siano in grado di simulare dinamiche complesse in giochi di deduzione sociale, palesandosi come fini persuasori e buoni strateghi. Questo campo in rapido avanzamento è particolarmente affascinante poiché combina elaborazione del linguaggio naturale, apprendimento multi-agentico e psicologia sociale computazionale per esplorare quanto di comparabile a comportamenti “umani” possa emergere dalla condotta degli agenti artificiali.

Studiare tali dinamiche risulta impellente per ovvie questioni etiche e rischi legati alla sicurezza degli utenti. Per non parlare del fatto che tali strumenti potrebbero essere impiegati per possibili usi malevoli legati alla disinformazione, propaganda e manipolazione delle conversazioni online con serie conseguenze che ne deriverebbero per la società. La regolamentazione europea con l’AI Act propone vincoli e controlli su sistemi con rischio di inganno e influenza malevola su persone, ma la strada da percorrere per imporre limiti effettivi è tutt’altro che in discesa e per operare una regolamentazione efficace è necessario innanzitutto aver chiaro il funzionamento di tali agenti. Proprio per questi motivi è così importante che vengano sostenuti progetti di ricerca che puntano in questa direzione e che nascono non solo nei laboratori privati delle big tech ma anche nei centri di ricerca e nelle università pubbliche, le quali possono contribuire a portare avanzamenti in questo campo.

Gli agenti AI sanno giocare a Lupus in Fabula e bluffano meglio di te

Lascia un commento Cancella risposta