Wikipedia ha sferrato un colpo agli sviluppatori di AI abituati a fare scraping dalla piattaforma. La sua arma segreta? Un dataset ottimizzato appositamente per l’addestramento dei modelli AI. Niente più scuse per saccheggiare il sito: ora i dati sono serviti su un piatto d’argento.
Wikipedia dice basta allo scraping non autorizzato: arriva il dataset ottimizzato per l’AI
Invece di raccogliere in modo non autorizzato grandi quantità di contenuti dal sito, ora gli sviluppatori hanno a disposizione un pacchetto di dati pulito, facilmente utilizzabile. Una mossa strategica per proteggere i server di Wikipedia e al tempo stesso offrire un’alternativa legale ed efficiente.
Per lanciare questa iniziativa, la Wikimedia Foundation si è alleata con un peso massimo: Kaggle. Questa community di data science, di proprietà di Google, è il punto di riferimento per chiunque voglia accedere a dati per il machine learning. E ora, tra i suoi “tesori”, spicca un dataset beta di contenuti strutturati di Wikipedia in inglese e francese.
Il nuovo dataset di Wikipedia pubblicato su Kaggle non è una semplice raccolta grezza di articoli. Ogni elemento – dai riassunti delle voci enciclopediche alle descrizioni brevi, dai link alle immagini ai dati strutturati delle infobox, fino alle singole sezioni degli articoli – è organizzato in formato JSON, quindi facilmente leggibile e pronto per essere analizzato, processato e usato per addestrare modelli AI. E il bello? È tutto sotto licenza aperta.
Gli scraper non hanno più scuse
Con questo dataset, Wikimedia manda un messaggio chiaro agli sviluppatori AI: non avete più scuse per “raschiare” il testo grezzo degli articoli. I bot automatizzati che consumano banda senza sosta stanno mettendo a dura prova i server di Wikipedia. Ora, con una fonte di dati strutturati a portata di mano, questa pratica non ha più senso.
Wikipedia ha già accordi di condivisione dei contenuti con Google e Internet Archive. Ma il dataset su Kaggle rende questi dati accessibili anche alle piccole aziende e ai data scientist indipendenti.