News
3 Gennaio 2024
0

Gemini AI di Google, cosa sappiamo sul competitor di ChatGPT

Articolo aggiornato il 29 Dicembre 2023 da
Valeria Poropat

Non si aspettava altro se non di vedere qualcosa di concreto e Google ha accontentato tutti mostrando quello che il suo Gemini AI può fare e soprattutto quello che potrà fare rispetto ai competitor, ChatGPT in testa.

cosa cx'è di vero nella demo video di gemini di google — Gemini alle prese con una paperella di gomma in 5 lingue (foto youtube/Google) – sos-wp.it

Il molto stiloso sito ufficiale che si trova cercando Google DeepMind mostra in una serie di brevi video e qualche grafico le performance del modello di Google rispetto a GPT4. Viene definito un modello “multimodale nativo“ il che significa che è in grado di lavorare con qualunque tipo di input e risponde con qualunque tipo di output. Per comprendere se si tratti o meno di una vera e propria rivoluzione è chiaro che occorrerà aspettare di poterlo avere per le mani ma le premesse sono interessanti.

E per sapere che cosa si può (potrà) fare con Gemini AI abbiamo anche deciso di chiedere a qualcuno che dovrebbe saperne qualcosa: Bard. Ma prima di passare a vedere tutto ciò che si potrebbe fare con questo nuovo modello linguistico di grandi dimensioni, ovvero MMLU, andiamo a vedere che cosa è successo con un video in particolare.

La demo video di Gemini AI che non convince

L’arrivo di Gemini AI era stato annunciato da tempo ma c’erano poi stati tutta una serie di ritardi che avevano fatto pensare che per avere esattamente quello che Google immaginava ci sarebbe voluto molto più tempo e invece all’improvviso qualche giorno fa la società ha rivelato al mondo ciò su cui stava lavorando. L’uscita ufficiale e la sua presentazione in società è avvenuta con un video in cui venivano mostrate molte cose in tempo reale. Un video che ha spiazzato tutti, compresi i più tecnici, ma che poi ad una seconda passata ha iniziato a insospettire più di qualcuno.

Gemini AI sembrava infatti fin troppo veloce nel rispondere ai comandi e infatti alla fine Google ha dovuto ammettere, modificando la descrizione del video apparso su YouTube, che è stato apportato un editing e che quindi alcune cose sono state tagliate via. La levata di scudi è stata pressoché immediata soprattutto tra quelli che forse non vedono l’ora di trovare falle nelle intelligenze artificiali ma in realtà, guardando al video da un punto di vista un po’ più oggettivo, si comprende in parte la necessità di Google di creare un po’ di hype per la sua creatura. La demo video non è altro che un’operazione di marketing e come tale va vista: Gemini AI è potenzialmente in grado di fare moltissime cose e forse di fare moltissime cose meglio di ChatGPT ma non lo si può valutare solo attraverso un video fornito da chi lo sta sviluppando.

Per chi si muove nel mondo dei videogiochi i video tagliuzzati prendendo immagini che non sono immagini reali di gioco non stupiscono più e trattandosi di tecnologia forse non dovremmo neanche stupirci del video rimontato per mostrare ciò che questo faraonico nuovo modello linguistico può (potrà) fare. Chiarito quindi che forse la polemica riguardo la dimostrazione registrata può essere accantonata vediamo effettivamente quelle che dovrebbero essere le potenzialità di questo nuovo modello di intelligenza artificiale.

Che cosa dovrebbe saper fare Gemini AI?

Partendo da quanto abbiamo appena detto è chiaro che quello che in potenza può fare Gemini AI lo possiamo leggere e vedere sul sito a lui dedicato. Secondo i numeri snocciolati da Google le capacità di Gemini, soprattutto nella sua versione Ultra, sono superiori al modello di OpenAI e ai competitor in tutti o quasi gli aspetti: dal ragionamento alla matematica passando per la generazione di codici e alla comprensione di immagini e di documenti. Guardando i numeri, soprattutto della sezione multimodale, la percentuale di scarto in alcuni ambiti è minima mentre diventa stuzzicante in altri. Per esempio nella comprensione delle immagini naturali Gemini registra un punteggio di 77,8% mentre GPT4 un punteggio di 77,2%.

google mostra la creatività di Gemini — GeminiAI e la creatività: un polpo di cotone è una buona idea – (foto youtube/Google) sos-wp.it

Nella comprensione dei documenti lo scarto è di due punti percentuali circa: Gemini totalizza 90,9%, mentre GPT4 totalizza 88.4%. Un po’ più netto è il divario che separa ciò che riesce a fare Gemini rispetto a GPT4 quando si tratta di ragionamento matematico in contesti visivi: Gemini totalizza un 53,00% mentre GPT4 si ferma a 49,9%. Il concetto di Gemini AI è quello di un assistente a 360 gradi, in grado di passare da “qualunque cosa a qualunque cosa“, questo si legge ancora sul sito, e gli esempi che vengono mostrati riguardano per esempio la creazione di una simulazione di volo degli uccelli a partire da un video che mostra stormi di uccelli effettivamente in volo sincronizzato seguito da un altro breve video in cui a Gemini vengono mostrati due gomitoli di cotone e gli viene chiesto che cosa si potrebbe creare con questi due gomitoli e la macchina risponde che si potrebbe dare vita a un polpo all’uncinetto bicolore. Le premesse ci sono. Ma nei fatti?

Che cosa pensa Bard di Gemini AI?

Potrebbe sembrare un corto circuito ma in realtà per capire forse che cosa si può fare con Gemini AI è bene chiedere a chi adesso lo può utilizzare: Bard. Il servizio di intelligenza artificiale sperimentale offerto da Google dichiara infatti di essere in grado di utilizzare Gemini AI. Glielo abbiamo chiesto e, oltre a dirci che cosa è Gemini AI, Bard ha prodotto alcune frasi di esempio concludendo con un incoraggiante “credo che Gemini AI sia uno strumento potente che può essere utilizzato per una varietà di scopi. Sono entusiasta di vedere come verrà utilizzato in futuro“.

Al netto dell’entusiasmo al silicio mostrato abbiamo provato a chiedere se, utilizzando Gemini AI, Bard sia o meno in grado di produrre un breve video animato a partire da un prompt. Rimanendo nel generico Bard afferma di essere in grado di creare quello che gli abbiamo chiesto ed elenca i vari passaggi che utilizzerà. Nel momento però in cui gli abbiamo chiesto un video molto più circostanziato, oltre a fornirci il canovaccio del video la intelligenza artificiale ha dichiarato di non essere in grado “in questo momento” di generare il video e ci ha ricordato che può comunque “generare testo, tradurre lingue, scrivere diversi tipi di contenuti creativi e rispondere alle tue domande in modo informativo“.

Mostrandoci vagamente stizziti abbiamo fatto notare all’intelligenza artificiale di averci però detto di essere in grado di farlo e la risposta è risultata circostanziata e allo stesso tempo anche vagamente umana: Bard si è scusato dell’inconveniente, dicendo che aveva sì detto di essere in grado di fare video ma anche di essere ancora in fase di sviluppo. Alla domanda se Gemini, senza Bard, è in grado adesso di produrre video la risposta è che il servizio è in grado di generare video “ma la sua capacità è ancora in fase di sviluppo“.

Chiedere a un’intelligenza artificiale che cosa pensi di una parte che si trova adesso al suo interno e su cui può fare affidamento forse è un po’ folle ma lo abbiamo fatto. Tornando all’idea del video che avevamo chiesto a Bard di produrci usando Gemini AI abbiamo chiesto a Bard di risponderci senza utilizzare i servizi di Gemini AI e la risposta è stata più dettagliata con anche un’immagine per spiegare il concetto scientifico di cui volevamo informazioni.

cosa pensa bard del nuovo arrivato gemini? — La risposta di Bard e la sua idea di Gemini Ai (screenshot reale) – sos-wp.it

Al che abbiamo chiesto a Bard che cosa pensasse del fatto che la sua risposta senza Gemini AI risultasse migliore nei dettagli rispetto a quella data utilizzando Gemini AI e l’intelligenza artificiale ha ammesso di aver dato una risposta più dettagliata con una spiegazione più completa. Ci ha però comunque ricordato che Gemini AI è in fase di sviluppo e che quindi non può per ora generare testi lunghi e che si è concentrato sul creare il canovaccio del video più che sul darci una risposta completa. Noi però, da esseri umani, un pizzico di orgoglio nell’aver dato una risposta più esaustiva l’abbiamo letto. Chiamatelo pure bias cognitivo.

ARGOMENTI: Google, Intelligenza Artificiale

Valeria Poropat

Laureata in traduzione, Valeria adora da sempre la tecnologia in ogni sua forma e in particolare ai modi in cui la tecnologia può aiutare ad avvicinare le persone e stimolare la curiosità.

Tutti gli articoli