Novità LLM Maggio 2026: l'IA si fa i conti

Certi mesi passano tranquilli. Maggio 2026 non è stato uno di quelli.

In poche settimane si sono susseguite notizie che, prese singolarmente, sarebbero degne di un post ciascuna. Il settore sta smettendo di chiedersi “cosa sa fare l'IA?” e sta iniziando a chiedersi “come la facciamo lavorare senza svuotare il portafogli?”

Partiamo.

1. Hermes: l'agente che non dimentica tutto ogni mattina

Immaginate di assumere un collaboratore brillante. Il primo giorno gli spiegate come funziona l'azienda, i processi, le eccezioni, i trucchi del mestiere. Il secondo giorno arriva in ufficio e vi chiede: “Ciao, sono nuovo, di cosa vi occupate?”

Ecco, questo è più o meno il problema degli agenti AI fino ad oggi.

Hermes è un agente open-source che impara da ogni task completato e diventa più capace nel tempo.

Il meccanismo è semplice: ogni volta che Hermes completa un task complesso, crea autonomamente una “skill”, cioè un documento strutturato che cattura la procedura, i problemi noti e i passaggi di verifica. La volta successiva che appare un task simile, l'agente carica la skill invece di ragionare da zero. Come un dipendente che prende appunti e li rilegge.

Hype o svolta reale? Probabilmente entrambe le cose. Un agente che accumula esperienza invece di resettare ogni sessione vale strutturalmente più di uno che, per quanto brillante, ogni mattina si sveglia senza ricordare niente. Come un personaggio di Memento, ma con la fattura mensile delle API.

Hermes funziona con Claude, GPT, Gemini, DeepSeek e qualsiasi modello in locale tramite Ollama. Per chi lavora con dati sensibili e non vuole spedirli in giro per il mondo, non è un dettaglio da poco.

2. Il grande risparmio di token: ovvero, smettere di bruciare denaro in modo elegante

Qui inizia il filo rosso che collega i prossimi tre temi.

Il problema di fondo è questo: ogni volta che un modello AI vi restituisce dati strutturati state pagando per ogni singolo token consumato, ed il formato in cui arrivano quei dati fa una differenza enorme sulla fattura finale.

Finora il formato di default è stato il JSON: comodo, universale, supportato ovunque. Ma il JSON non è mai stato progettato per i modelli linguistici: virgolette, parentesi graffe, virgole e chiavi ripetute gonfiano il conteggio dei token senza aggiungere alcun valore reale. Il modello non capisce di più grazie a tutta quella punteggiatura, ne paga solo il costo.

Entra in scena TOON (Token-Oriented Object Notation). Un formato leggero progettato specificamente per ridurre l'overhead strutturale nelle risposte degli LLM. A prima vista ricorda un ibrido tra JSON e CSV, ma lo scopo è uno solo: usare meno token per restituire le stesse informazioni.

In pratica, invece di chiedere al modello di rispondervi in JSON, gli chiedete di usare TOON nella risposta. Stesso contenuto, struttura snella, costi contenuti. I numeri sono difficili da ignorare: per dati strutturati e ripetuti come transazioni, eventi, log e cataloghi, il risparmio arriva al 30-60%, con impatto diretto sui costi API.

Detto questo, TOON non è una bacchetta magica: per dati molto annidati e irregolari, JSON rimane più chiaro. TOON brilla sui dati tabellari e uniformi. Strumento giusto per il problema giusto.

In Codebaker lo stiamo sperimentando internamente proprio in queste settimane e ne valuteremo l'adozione.

3. Graphify e Understand Anything: dare all'AI una mappa, non un archivio

Restiamo sul filo del risparmio token, perché il discorso si fa ancora più interessante.

Avete mai usato Claude Code su una codebase medio-grande? L'agente inizia a esplorare i file uno per uno, costruendo il contesto pezzo per pezzo come un detective che fruga in un archivio disorganizzato. Ogni lettura è token, ogni sessione ricomincia da zero. È un po' come usare Excel per gestire la supply chain di una monoposto di Formula 1: davvero?

Graphify e Understand Anything propongono un approccio diverso: invece di far rileggere all'agente tutto ogni volta, si costruisce una volta sola una mappa strutturata della conoscenza, un grafo di entità e relazioni, che l'agente può interrogare direttamente.

Graphify converte l'intera cartella — che sia codice, documentazione, PDF, immagini o transcript di riunioni — in questo grafo navigabile. Il risparmio dichiarato arriva fino al 70% sui token rispetto all'esplorazione tradizionale dei file, con risposte più precise. Understand Anything fa qualcosa di simile per le codebase: trasforma file e dipendenze in una mappa interattiva con guided tour, ricerca semantica e visualizzazione delle connessioni tra componenti.

La metafora è semplice: invece di mandare l'agente in un archivio a cercare tra mille scatoloni, gli date un indice strutturato. Meno token, più precisione, meno costi. Lo stesso identico filo rosso di TOON, applicato alla struttura della conoscenza invece che al formato dei dati.

L'idea, tra l'altro, deriva dal concetto di LM Wiki introdotto da Karpathy.

4. Markdown vs HTML: il formato dei documenti AI (e la teoria del complotto sui token)

Questo punto è quello che ha scatenato più discussioni nella community tech di questo mese.

La tesi, resa virale da Thariq Shihipar, lead engineer di Claude Code in Anthropic, è semplice: il Markdown sta diventando inadeguato per i documenti tecnici generati dall'AI e l'HTML lo sta sostituendo.

Il Markdown è nato per essere scritto e letto dagli umani con facilità. Funziona benissimo per quello. Ma quando l'AI genera documentazione tecnica, titoli, grassetti ed elenchi puntati non bastano più: le persone hanno bisogno di qualcosa di più visuale. Con l'HTML l'agente può inserire grafici reali, tabelle interattive, layout strutturati e componenti funzionanti direttamente nel documento, e il file si apre ovunque senza strumenti aggiuntivi.

Tutto perfetto? Non proprio. Circola tra i developer più maliziosi una teoria del complotto: l'HTML è da 2 a 4 volte più verboso del Markdown. Genera molti più token. E indovinate chi guadagna ogni volta che bruciate più token su Claude? Anthropic. Quella stessa Anthropic che promuove entusiasticamente l'adozione dell'HTML.

Il punto pratico comunque rimane: per i README su GitHub o le chat di Slack, il Markdown è e resterà perfetto. Per documentazione tecnica complessa, l'HTML generato dall'AI sta diventando lo standard in molti team.

Il filo rosso…

Se avete seguito fino a qui, il pattern è chiaro.

TOON riduce i token nei dati strutturati. Graphify e Understand Anything riducono i token nella navigazione della conoscenza. Hermes accumula esperienza invece di resettare ogni sessione. Karpathy usa Claude per migliorare Claude. E l'HTML, che sia una mossa geniale o una congiura ben orchestrata, rende i documenti più ricchi e interrogabili.

Sono tutti movimenti nella stessa direzione: dall'AI come spesa variabile e imprevedibile, verso sistemi che imparano, ricordano, ottimizzano e alla fine costano meno nel tempo.

Il settore sta smettendo di darsi arie da prima donna con benchmark spettacolari ed ha iniziato a farsi i conti in tasca. Era ora.

Per noi di Codebaker, che lavoriamo ogni giorno su Data Alchemy, il nostro sistema di Intelligent Document Processing, questi non sono temi da convegno. Sono le leve su cui lavoriamo ogni settimana per rendere i nostri sistemi più precisi, più economici e più utili per i clienti.

Se volete approfondire uno di questi temi, o ragionare su come si applicano al vostro contesto, scriveteci. Siamo curiosi quanto voi. E promettiamo di non rispondervi in XML.

One more thing…

Notizia bomba: Karpathy va da Anthropic

Il 19 maggio, Andrej Karpathy, co-fondatore di OpenAI ed ex direttore AI di Tesla, annuncia di essersi unito ad Anthropic, dove lavorerà col team di pre-training usando Claude stesso per accelerare la ricerca sui modelli.

La notizia ha girato ovunque, perlopiù raccontata come un episodio da soap opera sulla guerra dei talenti AI. Ma c'è un dettaglio che vale la pena sottolineare: Karpathy è il padre del vibe coding, quell'approccio in cui descrivi cosa vuoi in linguaggio naturale e l'AI scrive il codice al posto tuo. Ora lavora sul modello che lo alimenta. Quasi poetico, se non fosse che parliamo di miliardi di dollari di compute.

Il pattern di assunzioni di Anthropic racconta da solo la storia: i CTO di aziende come Workday, Instagram e Box hanno lasciato i loro ruoli per diventare ricercatori individuali in Anthropic. Non per guidare divisioni. Per fare ricerca. A testa bassa. In un settore dove tutti cercano visibilità, questa è già una dichiarazione d'intenti.

Questo post fa parte della nostra rubrica mensile sulle novità LLM. Seguite la pagina Codebaker su LinkedIn per non perdervi i prossimi.

Vuoi ragionare su come questi temi si applicano alla tua azienda?

In Codebaker lavoriamo ogni giorno su LLM e Intelligent Document Processing con Data Alchemy. Se vuoi approfondire uno di questi temi o capire come ridurre i costi dell'AI nel tuo contesto, scrivici.

Contattaci

Maggio 2026: il mese in cui l'IA ha smesso di darsi arie ed ha iniziato a farsi i conti in tasca