OpenAI, la società responsabile di aver reso disponibile a tutti l’intelligenza artificiale con ChatGPT, ha appena annunciato di aver creato i propri bot per fare web crawling. Ma ha già anche chiarito come evitare di essere spiati da questi bot.
Il modo in cui le intelligenze artificiali vengono create e soprattutto il modo in cui l’intelligenza artificiale fa esercizio per migliorare le risposte da dare agli utenti è composto da varie attività che i developer somministrano alle loro creature virtuali. Già nel momento in cui ChatGPT ha fatto il suo ingresso, seguita a ruota da tutte le altre intelligenze artificiali generative e conversazionali, (comprese quelle a base di immagini come Midjourney), è esploso il problema di che cosa sia stato utilizzato come materiale per allenare le intelligenze artificiali a rispondere in una maniera quanto più possibile vicina all’essere umano.
E sono per esempio emersi vari casi in cui soprattutto gli artisti delle immagini si sono ritrovati tra il materiale di training delle IA senza che gli fosse stato chiesto. Storico, a tal proposito, il caso che ha visto contrapposti la piattaforma di immagini Getty Images e i creatori di Stable Diffusion. Con una operazione che sembra quindi un’operazione trasparenza, e anche un po’ un’operazione simpatia, OpenAI ha annunciato che per migliorare il lavoro della sua intelligenza artificiale sono stati sguinzagliati nella rete dei bot per scandagliare i siti e fare quindi web crawling.
Ma nello stesso annuncio la società ha anche da subito chiarito che i proprietari di pagine siti web possono decidere se e quanto questi bot possono effettivamente ficcare il naso in un sito web. Scegliere se fungere o meno da materiale didattico per una intelligenza artificiale è qualcosa che devi decidere per te ma, se vuoi rimanere proprietario unico di ciò che c’è sul tuo sito, hai un modo per mettere dei paletti ai GPTbot.
I bot di OpenAI per allenare ChatGPT
L’annuncio da parte di OpenAI di aver deciso di utilizzare dei bot per il web crawling è arrivato attraverso il sito ufficiale su cui è ospitata anche ChatGPT. Ma non c’è stato un post di presentazione quanto solo una aggiunta alle pagine di supporto che sarebbe passata inosservata ma che invece ha provocato un moto quasi globale di preoccupazione. E anche una discussione su come, adesso, la società sembri valutare l’ingerenza o meno nella privacy dei siti altrui dopo aver comunque utilizzato tecniche di web scraping per trovare materiale con cui allenare la sua intelligenza artificiale.
Nuovo materiale e nuove informazioni sono di vitale importanza per creature digitali come le intelligenze artificiali, soprattutto se viene loro chiesto di creare testi a partire da notizie più recenti. E forse proprio per essere trasparenti e dare una immagine più positiva di sé, OpenAI ha già aggiunto nella pagina di supporto dedicata ai suoi GPTbot il modo in cui possono essere bloccati oppure limitati.
Ma la domanda, che qualcuno per esempio si pone nel forum specializzato Hacker News, è se questo eventuale blocco può funzionare anche su quelle pagine che, ed è inutile nasconderlo, OpenAI ha già analizzato in lungo e largo per raccogliere le informazioni su cui ora si basano le risposte della sua intelligenza artificiale. Una domanda che per ora, anche esaminando la pagina di supporto dei bot GPT, non trova risposta anche se è facile immaginare che quello che è stato analizzato non possa essere eliminato.
Come bloccare i bot e perché potresti decidere di non farlo
Scegliere se i bot ChatGPT possono o meno esaminare i contenuti del tuo sito devi deciderlo tu. Da quando sono stati annunciati, alcune grandi realtà hanno a loro volta annunciato, per esempio attraverso il social di Elon Musk, di aver implementato nel file robots.txt la parola magica che disabilita il web crawling da parte dei GPTbot : disallow. Tra le grandi testate che hanno già deciso di escludere la possibilità di diventare materiale di studio per l’intelligenza artificiale c’è per esempio The Verge. Nella pagina di supporto dei suoi bot, OpenAI chiarisce che lo scopo del permettere il web crawling dei suoi bot è quello di migliorare le performance dell’intelligenza artificiale e anche di renderla “più sicura“.
Di nuovo, la scelta di fungere da materiale di allenamento e addestramento a una realtà che comunque in futuro potrebbe tornarti utile, per esempio per il tuo marketing oppure implementata all’interno di un chatbot per parlare con gli utenti o possibili futuri clienti, spetta a te. Come per ogni nuova tecnologia anche l’intelligenza artificiale può avere i suoi benefici ma, esattamente come qualunque tecnologia, può essere piegata e utilizzata per scopi poco edificanti.
Per ciò che riguarda effettivamente il tuo sito e il tuo business, sapere che qualcuno sta lavorando per migliorare l’intelligenza artificiale potrebbe darti un domani uno strumento e un assistente virtuale valido nel momento in cui per esempio ti trovi a dover scrivere le descrizioni dei prodotti e dei servizi che offri e non hai la possibilità di interfacciarti con un esperto umano di copywriting oppure, cosa che per esempio ChatGPT già può fare, eseguire una analisi preliminare della SEO delle tue pagine e darti anche magari qualche informazione in più su che cosa migliorare. Siamo dunque in una situazione di do ut des.