OpenAI ha annunciato una nuova iniziativa, denominata Data Partnerships, per chiedere alla organizzazioni pubbliche e private di collaborare nella creazione di dataset da utilizzare per l’addestramento dei modelli di intelligenza artificiale generativa. L’azienda californiana non specifica però se è previsto un pagamento o un accordo di licenza.
OpenAI cerca dati per il training IA
OpenAI spiega che l’intelligenza artificiale generale (AGI) sarà sicura e vantaggiosa per l’umanità, se i modelli IA comprendono tutti gli argomenti, i settori, le culture e le lingue. Ciò richiede però un dataset di addestramento quanto più ampio possibile. L’azienda californiana ha già avviato collaborazioni con il governo islandese per migliorare la comprensione della lingua da parte di GPT-4 e con l’organizzazione Free Law Project per addestrare il modello con documenti legali.
L’obiettivo dell’iniziativa Data Partnerships è ottenere “dataset su larga scala che riflettono la società umana e che non sono già oggi facilmente accessibili online al pubblico“. OpenAI chiede alle organizzazioni di fornire testo, immagini, audio e video che esprimono le intenzioni umane in varie lingue e su vari argomenti. L’azienda offre diversi tool per digitalizzare i dati, tra cui il riconoscimento ottico dei caratteri (OCR) per convertire documenti (ad esempio file PDF) e il riconoscimento vocale automatico per trascrivere le conversazioni.
OpenAI non cerca dataset con informazioni sensibili o personali e informazioni che appartengono a terzi, quindi protette dal diritto d’autore. Eventualmente verranno utilizzati specifici tool per rimuovere queste informazioni. Le organizzazioni possono fornire dati per creare due tipi di dataset. Il primo sarà open source, quindi accessibile a tutti per l’addestramento dei modelli IA.
Il secondo sarà privato e verrà usato per l’addestramento dei modelli IA proprietari. Le organizzazioni interessate a partecipare devono compilare un form online. Leggendo il comunicato sembra che OpenAI voglia migliorare i suoi modelli IA senza offrire un compenso per i dati.