News
17 Aprile 2024
0

Perché YouTube ha inviato un avviso a OpenAI

Articolo aggiornato il 10 Aprile 2024 da
Valeria Poropat

Per quello che riguarda l’intelligenza artificiale generativa, una delle questioni che tengono banco, e probabilmente lo faranno ancora per un po’, è il modo in cui i modelli vengono addestrati.

Ovvero dove vengono reperiti testi, immagini, brandelli di audio che poi sono dati in pasto ai neuroni digitali e rimescolati quando l’essere umano lo richiede e nel modo in cui è richiesto. Come utenti finali, non ci chiediamo abbastanza spesso ancora chi ha fornito le informazioni di partenza ed è bene quindi che si parli anche di quando sembra che i colossi destinati a fornirci queste nuove diavolerie potrebbero aver violato le più elementari norme del copyright e i termini di servizio.

sora di openai ha studiato con youtube? — Il materiale di partenza e la privacy degli utenti: le ombre lunghe di Sora (foto OpenAI) – sos-wp.it

Durante una intervista con Bloomberg Originals, Neal Mohan, CEO di YouTube, ha messo in chiaro che chiunque (OpenAI) avesse effettivamente ascoltato e copiato quello che c’è sulla piattaforma per fornire al suo modello (Sora) una palestra per produrre video, tale pratica avrebbe nei fatti violato i termini di servizio che dovrebbero servire a proteggere gli autori di ciò che su YouTube viene pubblicato.

Online la risposta data da Mohan non è sembrata però del tutto soddisfacente. Cerchiamo di capire che cosa non è piaciuto e anche come si sta muovendo in Italia il Garante della privacy riguardo OpenAI e Sora.

OpenAI, da dove viene l’addestramento di Sora?

Emily Chang di Bloomberg Originals ha intervistato qualche giorno fa Neal Mohan, CEO di YouTube, e gli ha chiesto che cosa pensa sia successo con OpenAI e Sora. Per comprendere la risposta di Neal Mohan tocca però fare un passo indietro.

Non troppo tempo fa Mira Murati, Chief Technology Officer di OpenAI, è stata intervistata e le è stato chiesto quali sono stati i sistemi con cui è stata addestrata la nuova fantasmagorica intelligenza artificiale generativa in grado di produrre video al limite del reale: Sora. Murati, ed è questa una nota rimbalzata più volte online, nonostante sia CTO non è riuscita a dare una risposta chiara.

Incalzata da Joanna Stern di The Wall Street Journal sul fatto se Sora sia stata o meno addestrata con brandelli di video provenienti per esempio da YouTube, da Facebook o da Instagram ha risposto infatti non sapendo o non essendo sicura se siano stati o meno utilizzati, ripetendo che sono stati utilizzati i dati “pubblicamente disponibili” e poi aggiungendo “pubblicamente disponibili per l’utilizzo“. Online tanti si sono concentrati sul fatto che se qualcosa è disponibile pubblicamente non significa che può essere utilizzato senza che si sia d’accordo.

Ma non è l’eventuale tribunale social su quello su cui vogliamo concentrarci quanto sul messaggio direttamente indiretto che invece il CEO di YouTube sembra aver mandato proprio a OpenAI. Nell’intervista con Bloomberg Originals, Chang ha chiesto a Mohan se sa o meno dell’utilizzo di OpenAI di pezzi di video YouTube per addestrare Sora. Mohan ha risposto di non avere le prove ma che se fosse successo si tratterebbe di una chiara violazione dei termini di servizio della piattaforma.

Il CEO di YouTube fa riferimento più volte ai ToS parlando della prospettiva dei creatori di contenuti. Creatori di contenuti che, questa è l’idea sostenuta da YouTube, pubblicano i loro video sulla piattaforma sapendo che ci sono delle regole che devono essere rispettate. Perché i creatori affidano i loro contenuti a YouTube. La seconda parte della risposta, quando Chang chiede se Google ha utilizzato i video di YouTube per Gemini, di nuovo rimanda ai termini di servizio. Mohan dichiara infatti che sì, Google internamente ha utilizzato YouTube per addestrare la sua intelligenza artificiale generativa, ma lo ha fatto “nel rispetto di quegli stessi termini di servizio” oppure con contratti creati appositamente per i creatori di contenuti.

Con le società alla ricerca del prossimo colpaccio, che stavolta ha come acronimo AI, il materiale di partenza è oggetto di discussione da quando è stato presentato il primo modello di ChatGPT. Si tratta di una questione di rispetto del copyright ed è per questo che per esempio New York Times ha fatto causa proprio a OpenAI, che però ha risposto argomentando che non si tratta di infrazioni al copyright in quanto il materiale di partenza comunque viene rimaneggiato ed è quindi irriconoscibile.

Ma non si tratta solo di una questione di mero copyright, quindi di chi guadagna da cosa. Si tratta anche di una questione di dati personali che vanno a spasso sia nell’addestramento sia poi nella fruizione delle IA generative. Ed è su questo che si sta concentrando invece il Garante per la privacy italiano.

La questione dati personali di cui non si parla abbastanza

Come è successo già nel 2023, il Garante per la privacy ha infatti aperto un’altra istruttoria, di nuovo con al centro OpenAI. Ma stavolta non c’è ChatGPT come oggetto dell’analisi bensì la nuova intelligenza artificiale generativa di immagini in movimento. Sul sito ufficiale del Garante della privacy è stato pubblicato un comunicato stampa che spiega l’istruttoria che è stata appena avviata.

“Considerate le possibili implicazioni che il servizio “Sora” potrebbe avere sul trattamento dei dati personali degli utenti che si trovano nell’Unione europea e in particolare in Italia, l’Autorità ha chiesto ad OpenAI di fornire una serie di chiarimenti.“

Come nel caso di ChatGPT, quindi, la preoccupazione del Garante è l’eventuale passaggio, il trattamento e la raccolta dei dati personali degli utenti che potrebbero o meno avere a che fare con Sora. Quando esplose il fenomeno ChatGPT, sempre il Garante pretese alcune modifiche alla raccolta dati, perché fossero corrispondenti alle leggi in vigore nella nostra parte di oceano in termini di protezione dei dati personali online. Anche per Sora quello che OpenAI deve fornire al Garante sono informazioni riguardo “l’addestramento dell’algoritmo” quindi i dati che sono stati raccolti e se tra i dati personali sono anche stati utilizzati convinzioni religiose, opinioni politiche, dati genetici e da dove siano arrivati questi dati.

ARGOMENTI: Intelligenza Artificiale

Valeria Poropat

Laureata in traduzione, Valeria adora da sempre la tecnologia in ogni sua forma e in particolare ai modi in cui la tecnologia può aiutare ad avvicinare le persone e stimolare la curiosità.

Tutti gli articoli