Con la crescente importanza dei big data e dell’intelligenza artificiale, si sta delineando una nuova frontiera: il controllo dei dati online. Al centro di questa battaglia troviamo Reddit, il colosso dei forum online, che sta ridefinendo le regole del gioco nel suo rapporto con i giganti tecnologici.
La mossa audace di Steve Huffman, CEO di Reddit
Dopo aver stretto accordi con Google e OpenAI, l’amministratore delegato di Reddit, Steve Huffman, punta ora il dito contro Microsoft, Anthropic e Perplexity chiedendo loro di pagare per l’accesso ai preziosi dati di Reddit.
“Senza questi accordi, non abbiamo alcuna voce in capitolo o conoscenza di come vengono visualizzati i nostri dati e per cosa vengono utilizzati, il che ci ha messo nella posizione di bloccare coloro che non sono disposti a scendere a patti su come vorremmo che i nostri dati venissero utilizzati o meno.“, ha dichiarato Huffman in un’intervista di questa settimana. La piattaforma perciò non è più disposta a permettere l’utilizzo indiscriminato dei suoi contenuti senza avere voce in capitolo sul loro impiego.
Il braccio di ferro con i colossi tech e la nuova economia dei dati
Negli ultimi mesi Reddit ha intensificato la sua lotta contro i crawler. All’inizio di luglio, il suo file robots.txt è stato aggiornato per bloccare i web crawler con cui non ha stretto accordi. Poi si è cominciato a notare che i risultati di Reddit erano visibili solo nei risultati di Google – dove Reddit viene pagato per mostrare i suoi dati – e non in altri motori di ricerca come Bing.
Huffman ha affermato che Microsoft ha utilizzato i dati di Reddit per addestrare la sua AI e riassumere i suoi contenuti nei risultati di Bing senza alcuna autorizzazione e che i dati di Reddit sono stati venduti attraverso l’API di Bing ad altri motori di ricerca.
La mossa di Reddit quindi, segna un punto di svolta nell’economia digitale. Il tradizionale scambio “traffico in cambio di dati” sta perdendo terreno di fronte alle potenzialità dell’intelligenza artificiale generativa.
Huffman sostiene che la fusione tra ricerca, sintesi e training dell’AI stia rendendo obsoleto il vecchio modello. Reddit si unisce così a una schiera crescente di editori che chiedono un giusto compenso per l’utilizzo dei loro contenuti per l’addestramento dell’intelligenza artificiale.
Un futuro incerto
Mentre alcune aziende come OpenAI hanno già stretto accordi con Reddit (per inciso, SearchGPT mostrerà i risultati di Reddit), altre rimangono in una posizione di stallo.
Anthropic, una delle aziende citate da Reddit, ha dichiarato di rispettare la direttiva robots.txt (file usato dai siti web per indicare agli crawler di non indicizzarne il contenuto), e che dalla metà di maggio Reddit è stato inserito nella loro lista di siti web bloccati per il crawling. Ciò significa che da quella data, non ha più raccolto o aggiunto dati provenienti da Reddit al suo database. Microsoft e Perplexity, anch’esse tirate in ballo dal CEO di Reddit, non hanno ancora rilasciato commenti in merito.
La battaglia per il controllo dei dati è appena iniziata…