07 dic 2023·2 min di lettura

Ti presentiamo Gemini: il sofisticato modello di intelligenza artificiale multimodale di Google

Google lancia il suo modello di intelligenza artificiale avanzata, Gemini. Questo modello può comprendere diversi formati di dati, inclusi testo, codice, audio, immagini e video.

Facendo un balzo in avanti nel campo dell'intelligenza artificiale, Google ha introdotto Gemini, il suo ultimo modello di intelligenza artificiale. Questo modello innovativo, a differenza di quelli tradizionali, è in grado di interpretare formati di dati eterogenei: testo, codice, audio, immagini e video, fin dall'inizio.

In genere, i modelli multimodali vengono sviluppati addestrando separatamente diversi componenti per diversi formati di informazioni e quindi integrandoli. Tuttavia, allontanandosi da questa pratica standard, Gemini sfrutta un approccio diverso. Il modello è stato addestrato fin dall'inizio su vari formati di dati e perfezionato con dati multimodali aggiuntivi. Questa metodologia aiuta Gemini a comprendere e ragionare su più tipi di dati, superando gli attuali modelli multimodali. Evidenziando i punti di forza di Gemini, Sundar Pichai, CEO di Google e Alphabet, e Demis Hassabis, CEO e co-fondatore di Google DeepMind, hanno condiviso che le capacità del modello sono alla pari con le migliori in quasi tutti i settori.

Sorprendentemente, i Gemelli hanno una solida capacità di ragionamento, che gli consente di percepire complesse informazioni scritte e visive. Grazie a ciò, è abile nell’estrarre conoscenze difficili da trovare da vasti pool di dati. Un esempio solitario di ciò è la sua capacità di vagliare centinaia di migliaia di documenti per ottenere preziose informazioni che portino a scoperte in molti campi. Inoltre, gli aspetti multimodali dei Gemelli lo rendono particolarmente efficace nel decifrare questioni complesse in materie come la matematica e la fisica.

Il Gemini 1.0 iniziale è disponibile in tre varianti: Ultra, Pro e Nano, ciascuna adatta a requisiti di dimensioni diverse. Secondo Google, Gemini Ultra ha superato 30 dei 32 benchmark accademici comunemente utilizzati nello sviluppo del modello e nella ricerca durante il benchmarking preliminare. In particolare, Gemini Ultra è anche il primo modello in assoluto a superare gli esperti umani. Questo è stato misurato utilizzando la comprensione linguistica multitasking (MMLU), che comprende 57 discipline che vanno dalla matematica e fisica alla storia, diritto, medicina ed etica.

Gemini Pro è ora integrato con Bard, rappresentando l'aggiornamento Bard più sostanziale dal suo rilascio. Vale la pena notare che Pixel 8 Pro è stato ottimizzato anche per sfruttare le funzionalità di Gemini Nano per potenziare funzionalità come Riepiloga nell'app Registratore e Risposta intelligente nella tastiera di Google.

Nei prossimi mesi, si prevede che Gemini verrà incorporato in più prodotti Google, come Ricerca, Annunci, Chrome e Duet AI. A partire dal 13 dicembre, agli sviluppatori verrà concesso l'accesso a Gemini Pro tramite l'API Gemini in Google AI Studio o Google Cloud Vortex AI.

Oltre a ciò, Gemini può comprendere diversi linguaggi di programmazione diffusi, tra cui Python, Java, C++ e Go. Secondo Pichai e Hassabis, la solida competenza linguistica e la capacità di ragionamento dei Gemelli su informazioni complesse ne fanno un modello di base di alto livello per la codifica in tutto il mondo.

Google ha inoltre utilizzato Gemini per progettare un sistema avanzato di generazione di codice noto come AlphaCode 2. Questo sistema, un aggiornamento della prima versione rilasciata due anni fa, può affrontare problemi di programmazione competitiva che coinvolgono matematica complessa e informatica teorica.

In aggiunta alla serie di annunci, la presentazione di un nuovo sistema TPU denominato Cloud TPU v5p, progettato per l'addestramento di modelli IA all'avanguardia, completa ulteriormente il lancio di Gemini. Questo TPU di prossima generazione accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e i clienti aziendali ad addestrare più rapidamente modelli di intelligenza artificiale generativa su larga scala. Ciò garantirà che i servizi e le funzionalità più recenti raggiungano i clienti in un arco di tempo più breve.

Google ha sottolineato la sua adesione ai principi di intelligenza artificiale responsabile durante lo sviluppo di Gemini. Ha svolto ricerche in aree di potenziale rischio come i reati informatici, la persuasione e l'autonomia. Sono stati inoltre creati classificatori di sicurezza per identificare, etichettare e separare i contenuti contenenti violenza o stereotipi negativi.

Il lancio di Gemini rappresenta una pietra miliare fondamentale nell'evoluzione dell'intelligenza artificiale e dà inizio a una nuova era per Google. Con gli sforzi attualmente in corso per estendere le funzionalità di Gemini alle versioni future, i miglioramenti nella pianificazione e gli avanzamenti della memoria e l'aumento della finestra di contesto per l'elaborazione di più informazioni, promettono risposte migliori in futuro.

Man mano che gli orizzonti del regno del no-code e low-code si espandono, piattaforme come AppMaster consentono a sviluppatori e professionisti aziendali di costruire applicazioni scalabili e potenti per integrare i progressi dell'intelligenza artificiale come Gemini. Con un elenco impressionante di funzionalità, AppMaster si distingue come una soluzione versatile ed economica nel panorama dello sviluppo di app in rapida evoluzione.

Notizie correlate