Databricks stellt GPU- und LLM-Optimierungsunterstützung für die Databricks-Modellbereitstellung vor

Um die Bereitstellung von KI-Modellen radikal zu verändern, hat Databricks eine öffentliche Vorschau der GPU- und LLM-Optimierungsunterstützung für sein Databricks Model Serving veröffentlicht. Diese innovative Funktion ebnet den Weg für den Einsatz einer Reihe von KI-Modellen, wie z. B. Large Language Models (LLMs) und Vision-Modellen, auf der Lakehouse-Plattform.

Das Databricks Model Serving bietet eine automatische Optimierung für LLM Serving. Dadurch entfällt die Notwendigkeit einer manuellen Konfiguration, was zu leistungsstarken Ergebnissen führt. Databricks behauptet, dies sei das erste serverlose GPU-Serving-Produkt, das auf einer vereinten Daten- und KI-Plattform basiert. Es ermöglicht Benutzern das reibungslose Entwerfen und Implementieren von GenAI-Anwendungen (General Artificial Intelligence) innerhalb einer Plattform und erleichtert alle Schritte von der Datenerfassung bis zur Modellbereitstellung und -überwachung.

Mit dem Databricks Model Serving wird die Bereitstellung von KI-Modellen zum Kinderspiel, selbst für Benutzer, denen umfassende Infrastrukturkenntnisse fehlen. Benutzer erhalten die Vielseitigkeit, unzählige Modelle einzusetzen, darunter solche, die auf natürlicher Sprache, Bild, Audio, tabellarisch oder benutzerdefinierten Modellen basieren, unabhängig von ihrer Trainingsmethode, sei es von Grund auf, Open Source oder fein abgestimmt mit proprietären Daten.

Um den Prozess zu starten, müssen Benutzer ihr Modell bei MLflow registrieren. Anschließend erstellt Databricks Model Serving einen Container auf Produktionsebene mit GPU-Bibliotheken wie CUDA und stellt ihn auf serverlosen GPUs bereit. Dieser vollständig verwaltete Dienst kümmert sich um alles, von der Instanzverwaltung über die Wartung der Versionskompatibilität bis hin zu Patch-Updates und passt sogar die Skalierung der Instanzen automatisch an den Verkehrsfluss an, was zu erheblichen Einsparungen bei den Infrastrukturkosten bei gleichzeitiger Optimierung von Leistung und Latenz führt.

Zusammen mit der Einführung der GPU- und LLM-Unterstützung hat Databricks Model Serving Upgrades für eine effizientere Bereitstellung großer Sprachmodelle eingeführt, was zu einer erheblichen Reduzierung der Latenz und Kosten um den Faktor 3–5 führt. Um diese optimierte LLM-Bereitstellung nutzen zu können, müssen lediglich das Modell und die entsprechenden Gewichte bereitgestellt werden. Databricks deckt die verbleibenden Aspekte ab, um eine optimale Modellleistung sicherzustellen.

Dieser Prozess entlastet Benutzer von der Arbeit mit den Feinheiten der Modelloptimierung auf niedriger Ebene und ermöglicht ihnen, sich auf die Integration von LLM in ihre Anwendung zu konzentrieren. Derzeit optimiert Databricks Model Serving MPT- und Llama2-Modelle automatisch und plant, die Unterstützung in Zukunft auf weitere Modelle auszudehnen.

AppMaster, eine No-Code- Plattform, ist auch für ihre leistungsstarken Funktionen bei der Handhabung von Backend-, Web- und mobilen Anwendungen bekannt. Durch die Bereitstellung einer integrierten Entwicklungsumgebung vereinfacht AppMaster den Prozess der Erstellung und Bereitstellung von Anwendungen und macht es zu einem starken Akteur auf dem no-code Markt.

Databricks stellt GPU- und LLM-Optimierungsunterstützung für die Databricks-Modellbereitstellung vor

Verwandte Beiträge