Wikipedia offre i suoi contenuti agli sviluppatori AI per salvare i server dal sovraccarico
Wikipedia ha creato un dataset utile per addestrare le AI. Un compromesso, per proteggersi dallo scraping selvaggio ad opera dei crawler affamati di dati.

Wikipedia sta affrontando difficoltà sempre più serie a causa dei crawler AI – bot che raccolgono sistematicamente testo e contenuti multimediali dall’enciclopedia per addestrare modelli di intelligenza artificiale generativa – che stanno avendo un impatto significativo sui suoi server, provocando costi maggiori e tempi di caricamento più lenti per gli utenti umani in alcuni casi.
Una soluzione strategica contro i bot affamati di dati
Nel tentativo di impedire ai bot di sovraccaricare il sito pubblico di Wikipedia e consumare troppa larghezza di banda, la Wikimedia Foundation (che gestisce i dati di Wikipedia) sta offrendo agli sviluppatori di AI un dataset che possono utilizzare liberamente. Questa iniziativa rappresenta un approccio pragmatico a un problema che rischia di compromettere la missione fondamentale dell’enciclopedia: fornire conoscenza gratuita e accessibile a chiunque nel mondo.
L’organizzazione ha collaborato con Kaggle, una piattaforma di data science di proprietà di Google, per proporre una versione beta di un dataset strutturato sia in inglese che in francese. Secondo quanto comunicato, il dataset è specificamente formattato per il machine learning, rendendolo più utile per l’addestramento, lo sviluppo e la data science rispetto al contenuto grezzo disponibile sul sito web. Questa strutturazione dovrebbe anche ridurre il carico di lavoro per le aziende che sviluppano modelli AI, eliminando la necessità di elaborare e pulire i dati estratti direttamente dal sito.
Una risorsa preziosa per le AI
Wikimedia Enterprise sottolinea che il dataset include elementi particolarmente utili per l’addestramento dei modelli, come “abstract, brevi descrizioni, dati chiave-valore in stile infobox, link alle immagini e sezioni di articoli chiaramente segmentate”. È interessante notare che non sono presenti riferimenti o altri “elementi non in prosa”, come clip video, probabilmente per mantenere il dataset focalizzato sul contenuto testuale più rilevante per i modelli linguistici.

La mancanza di riferimenti potrebbe rendere la questione dell‘attribuzione delle informazioni nel dataset piuttosto nebulosa, sollevando interrogativi su come i modelli AI addestrati su questi dati potranno citare correttamente le fonti originali. Tuttavia, Wikimedia Enterprise (una parte della Wikimedia Foundation che cerca di rendere i dati di Wikipedia disponibili attraverso API) afferma che i contenuti nel dataset sono liberamente concessi in licenza sotto Creative Commons, pubblico dominio e così via, dato che provengono tutti da Wikipedia.


