In una mossa destinata a trasformare radicalmente l'implementazione del modello AI, Databricks ha rilasciato un'anteprima pubblica del supporto di ottimizzazione GPU e LLM per il suo Databricks Model Serving. Questa funzionalità innovativa apre la strada all’implementazione di una serie di modelli di intelligenza artificiale, come i modelli LLM (Large Language Models) e i modelli di visione, sulla piattaforma Lakehouse.

Databricks Model Serving offre l'ottimizzazione automatica per LLM Serving. Ciò elimina la necessità di configurazione manuale, garantendo risultati ad alte prestazioni. Databricks afferma che questo è il primo prodotto di servizio GPU serverless basato su una piattaforma dati e AI unificata. Consente agli utenti di progettare e implementare senza problemi applicazioni di Intelligenza Artificiale Generale (GenAI) all'interno di un'unica piattaforma, facilitando tutti i passaggi, dall'acquisizione dei dati all'implementazione e al monitoraggio del modello.

Con Databricks Model Serving, la distribuzione di modelli IA diventa un gioco da ragazzi, anche per gli utenti che non dispongono di una conoscenza completa dell'infrastruttura. Gli utenti ottengono la versatilità di implementare miriadi di modelli, compresi quelli basati sul linguaggio naturale, sulla visione, sull'audio, su tabelle o personalizzati, indipendentemente dal loro metodo di formazione, sia esso da zero, open source o ottimizzato con dati proprietari.

Per avviare il processo, gli utenti devono registrare il proprio modello con MLflow, pubblicare il quale Databricks Model Serving creerà un contenitore a livello di produzione completo di librerie GPU come CUDA e lo distribuirà su GPU serverless. Questo servizio completamente gestito si occupa di tutto, dalla gestione delle istanze, al mantenimento della compatibilità delle versioni, agli aggiornamenti delle patch e persino alla regolazione automatica del ridimensionamento delle istanze in modo congruente con i flussi di traffico, portando a risparmi sostanziali sulle spese dell'infrastruttura e ottimizzando al tempo stesso prestazioni e latenza.

Oltre al lancio del supporto GPU e LLM, Databricks Model Serving ha introdotto aggiornamenti per un servizio più efficiente di modelli linguistici di grandi dimensioni, con conseguente riduzione significativa della latenza e dei costi, fino a un fattore di 3-5 volte. Per utilizzare questo servizio LLM ottimizzato, è sufficiente fornire il modello e i pesi corrispondenti. Databricks copre gli aspetti rimanenti per garantire prestazioni ottimali del modello.

Questo processo libera gli utenti dalla gestione delle complessità di ottimizzazione del modello di basso livello, consentendo loro di concentrarsi sull'integrazione di LLM nella propria applicazione. Attualmente, Databricks Model Serving ottimizza automaticamente i modelli MPT e Llama2 con piani in cantiere per estendere il proprio supporto a più modelli in futuro.

