La nuova versione dell’AI di TikTok è un genio della matematica
ByteDance ha usato un nuovo approccio per l'ultima versione di Seed-Thinking-v1.5, avanzato nuovo modello AI. I risultati nei principali test e benchmark STEM, dedicati alle materie scientifiche, sono impressionanti.

ByteDance, la società madre di TikTok, si unisce alla competizione per lo sviluppo di modelli linguistici di “ragionamento” con l’annuncio di Seed-Thinking-v1.5. Questo nuovo modello AI si posiziona come alternativa compatta ma potente ai giganti del settore, promettendo prestazioni competitive nei campi STEM e in domini di uso generale. La corsa ai modelli di ragionamento è iniziata con l’annuncio di o1 di OpenAI a settembre 2024, ma ha preso davvero slancio con il rilascio di DeepSeek R1 a gennaio 2025, spingendo i principali fornitori a competere per offrire soluzioni migliori, più veloci ed economiche.
Un’architettura efficiente per risultati superiori

Basato sull’architettura Mixture-of-Experts (MoE), Seed-Thinking-v1.5 utilizza solo 20 miliardi dei suoi 200 miliardi di parametri per volta, ottimizzando così l’efficienza. I benchmark mostrano risultati impressionanti: 86,7% su AIME 2024, 55,0% pass@8 su Codeforces e 77,3% sul benchmark scientifico GPQA. Queste performance lo posizionano vicino o alla pari di modelli come o3-mini-high di OpenAI e Gemini 2.5 Pro di Google, superando addirittura questi ultimi nel benchmark ARC-AGI, che misura il progresso verso l’intelligenza artificiale generale. Per affrontare la saturazione nei benchmark standard come AIME, ByteDance ha introdotto BeyondAIME, un nuovo benchmark matematico più difficile con problemi selezionati progettati per resistere alla memorizzazione e discriminare meglio le prestazioni dei modelli. Questo e il set di valutazione Codeforces dovrebbero essere rilasciati pubblicamente per supportare la ricerca futura.
La nuova strategia di ByteDance
ByteDance ha adottato una strategia di dati rigorosa, curando 400.000 campioni per l’addestramento, di cui 300.000 verificabili (STEM, logica e programmazione) e 100.000 non verificabili come scrittura creativa e giochi di ruolo. L’apprendimento per rinforzo è potenziato da framework personalizzati (VAPO e DAPO) e da strumenti come Seed-Verifier e Seed-Thinking-Verifier, che migliorano la stabilità dell’addestramento e la valutazione delle risposte. L’azienda ha inoltre sviluppato un’infrastruttura all’avanguardia con il Streaming Rollout System (SRS), che accelera i cicli di apprendimento per rinforzo fino a 3 volte.
I dati STEM si concentrano fortemente sulla matematica avanzata, che rappresenta oltre l’80% del set di problemi. I dati aggiuntivi sulla logica includono attività come Sudoku e puzzle a 24 punti, con difficoltà regolabile per corrispondere ai progressi del modello. Il modello non è ancora disponibile per il download o l’uso, e non è chiaro quali saranno i termini di licenza: se sarà proprietario/closed source, open source/gratuito per tutti da utilizzare e modificare a piacimento, o qualcosa di intermedio.