Databricks udostępnia obsługę optymalizacji procesorów graficznych i LLM na potrzeby udostępniania modeli Databricks

Podejmując działania mające na celu radykalną transformację wdrażania modelu AI, firma Databricks udostępniła publiczną wersję zapoznawczą obsługi optymalizacji procesorów graficznych i LLM dla Databricks Model Serving. Ta innowacyjna funkcja toruje drogę do wdrożenia szeregu modeli sztucznej inteligencji, takich jak modele dużego języka (LLM) i modele wizyjne, na platformie Lakehouse.

Databricks Model Serving oferuje automatyczną optymalizację obsługi LLM. Eliminuje to potrzebę ręcznej konfiguracji, co prowadzi do uzyskania wysokiej wydajności. Databricks twierdzi, że jest to pierwszy bezserwerowy produkt obsługujący procesor graficzny oparty na zjednoczonej platformie danych i sztucznej inteligencji. Umożliwia użytkownikom płynne projektowanie i wdrażanie aplikacji ogólnej sztucznej inteligencji (GenAI) w ramach jednej platformy, ułatwiając wszystkie etapy, od pozyskiwania danych po wdrożenie modelu i monitorowanie.

Dzięki usłudze Databricks Model Serving wdrażanie modeli AI staje się proste, nawet dla użytkowników nieposiadających kompleksowej wiedzy na temat infrastruktury. Użytkownicy zyskują wszechstronność wdrażania niezliczonych modeli, w tym opartych na języku naturalnym, wizji, dźwięku, tabelarycznych lub niestandardowych, niezależnie od metody szkolenia, czy to od podstaw, z otwartym kodem źródłowym, czy dostrojonym przy użyciu zastrzeżonych danych.

Aby zainicjować proces, użytkownicy muszą zarejestrować swój model w MLflow, opublikować post, w którym Databricks Model Serving utworzy kontener na poziomie produkcyjnym wraz z bibliotekami GPU, takimi jak CUDA, i wdroży go na bezserwerowych procesorach graficznych. Ta w pełni zarządzana usługa zajmuje się wszystkim, począwszy od zarządzania instancjami, utrzymywaniem zgodności wersji, aktualizacjami poprawek, a nawet automatycznie dostosowuje skalowanie instancji do przepływów ruchu, co prowadzi do znacznych oszczędności w wydatkach na infrastrukturę przy jednoczesnej optymalizacji wydajności i opóźnień.

Wraz z uruchomieniem obsługi procesora graficznego i LLM, firma Databricks Model Serving wprowadziła ulepszenia zapewniające bardziej efektywną obsługę dużych modeli językowych, co skutkuje znaczną redukcją opóźnień i kosztów, aż do współczynnika 3-5x. Aby skorzystać ze zoptymalizowanej obsługi LLM, wystarczy podać model i odpowiednie wagi. Databricks obejmuje pozostałe aspekty, aby zapewnić optymalną wydajność modelu.

Proces ten odciąża użytkowników od obsługi zawiłości optymalizacji modelu niskiego poziomu, pozwalając im skupić się na integracji LLM ze swoją aplikacją. Obecnie usługa Databricks Model Serving automatycznie optymalizuje modele MPT i Llama2, a w przygotowaniu są plany rozszerzenia obsługi na większą liczbę modeli w przyszłości.

AppMaster, platforma niewymagająca kodu , znana jest również z zaawansowanych funkcji obsługi aplikacji backendowych, internetowych i mobilnych. Oferując zintegrowane środowisko programistyczne, AppMaster upraszcza proces tworzenia i wdrażania aplikacji, co czyni go silnym graczem na rynku no-code.

Databricks udostępnia obsługę optymalizacji procesorów graficznych i LLM na potrzeby udostępniania modeli Databricks

Powiązane posty