Databricks onthult GPU- en LLM-optimalisatieondersteuning voor Databricks Model Serving

In een poging om de implementatie van AI-modellen radicaal te transformeren, heeft Databricks een openbare preview uitgebracht van GPU- en LLM-optimalisatieondersteuning voor zijn Databricks Model Serving. Deze innovatieve functie maakt de weg vrij voor de inzet van een reeks AI-modellen, zoals Large Language Models (LLM's) en Vision-modellen, op het Lakehouse Platform.

Het Databricks Model Serving biedt automatische optimalisatie voor LLM Serving. Dit elimineert de noodzaak van handmatige configuratie, wat leidt tot hoogwaardige resultaten. Databricks beweert dat dit het eerste serverloze GPU-product is dat is gebaseerd op een verenigd data- en AI-platform. Het stelt gebruikers in staat om General Artificial Intelligence (GenAI)-applicaties soepel te ontwerpen en implementeren binnen één platform, waardoor alle stappen worden gefaciliteerd, van gegevensopname tot modelimplementatie en monitoring.

Met Databricks Model Serving wordt het implementeren van AI-modellen een fluitje van een cent, zelfs voor gebruikers die geen uitgebreide kennis van de infrastructuur hebben. Gebruikers krijgen de veelzijdigheid door talloze modellen in te zetten, waaronder modellen die zijn gebaseerd op natuurlijke taal, visie, audio, tabellarische of aangepaste modellen, ongeacht hun trainingsmethode, of deze nu helemaal opnieuw is opgebouwd, open-source is of is verfijnd met bedrijfseigen gegevens.

Om het proces te starten, moeten gebruikers hun model registreren bij MLflow, waarna Databricks Model Serving een container op productieniveau zal maken, compleet met GPU-bibliotheken zoals CUDA, en deze zal implementeren op serverloze GPU's. Deze volledig beheerde service zorgt voor alles, van instancebeheer, onderhoud van versiecompatibiliteit, patchupdates en zelfs automatisch aanpassen van instances die congruent zijn met de verkeersstromen, wat leidt tot aanzienlijke besparingen op infrastructuurkosten terwijl de prestaties en latentie worden geoptimaliseerd.

Naast de lancering van de GPU- en LLM-ondersteuning heeft Databricks Model Serving upgrades geïntroduceerd voor een efficiëntere weergave van grote taalmodellen, wat resulteert in een aanzienlijke vermindering van de latentie en kosten, tot een factor 3-5x. Om deze geoptimaliseerde LLM-serving te gebruiken, hoeft u alleen maar het model en de bijbehorende gewichten op te geven. Databricks behandelt de overige aspecten om optimale modelprestaties te garanderen.

Dit proces ontlast gebruikers van het omgaan met ingewikkelde modeloptimalisaties op laag niveau, waardoor ze zich kunnen concentreren op de integratie van LLM in hun applicatie. Momenteel optimaliseert Databricks Model Serving automatisch MPT- en Llama2-modellen met plannen in de pijplijn om de ondersteuning in de toekomst uit te breiden naar meer modellen.

AppMaster, een platform zonder code , staat ook bekend om zijn krachtige functies bij het verwerken van backend-, web- en mobiele applicaties. AppMaster biedt een geïntegreerde ontwikkelomgeving en vereenvoudigt het proces van het bouwen en implementeren van applicaties, waardoor het een sterke speler wordt op de no-code markt.

Databricks onthult GPU- en LLM-optimalisatieondersteuning voor Databricks Model Serving

Gerelateerde berichten