Databricks dévoile la prise en charge de l'optimisation GPU et LLM pour le service de modèles Databricks

Dans le but de transformer radicalement le déploiement du modèle d'IA, Databricks a publié un aperçu public de la prise en charge de l'optimisation GPU et LLM pour son Databricks Model Serving. Cette fonctionnalité innovante ouvre la voie au déploiement d'une gamme de modèles d'IA, tels que les modèles LLM (Large Language Models) et les modèles Vision, sur la plateforme Lakehouse.

Le Databricks Model Serving offre une optimisation automatique pour le LLM Serving. Cela élimine le besoin de configuration manuelle, ce qui conduit à des résultats hautes performances. Databricks affirme qu'il s'agit du premier produit de service GPU sans serveur basé sur une plate-forme unie de données et d'IA. Il permet aux utilisateurs de concevoir et de mettre en œuvre des applications d'intelligence artificielle générale (GenAI) en douceur au sein d'une seule plateforme, facilitant ainsi toutes les étapes, depuis l'ingestion des données jusqu'au déploiement et à la surveillance des modèles.

Avec Databricks Model Serving, le déploiement de modèles d'IA devient un jeu d'enfant, même pour les utilisateurs manquant de connaissances complètes en matière d'infrastructure. Les utilisateurs ont la possibilité de déployer des myriades de modèles, y compris ceux basés sur le langage naturel, la vision, l'audio, les tableaux ou les modèles personnalisés, quelle que soit leur méthode de formation, qu'elle soit à partir de zéro, open source ou affinée avec des données propriétaires.

Pour lancer le processus, les utilisateurs doivent enregistrer leur modèle auprès de MLflow, puis publier Databricks Model Serving créera un conteneur de niveau production complet avec des bibliothèques GPU comme CUDA et le déploiera sur des GPU sans serveur. Ce service entièrement géré s'occupe de tout, de la gestion des instances à la maintenance de la compatibilité des versions, en passant par les mises à jour des correctifs et même l'ajustement automatique de la mise à l'échelle des instances en fonction des flux de trafic, ce qui permet de réaliser des économies substantielles sur les dépenses d'infrastructure tout en optimisant les performances et la latence.

Parallèlement au lancement de la prise en charge GPU et LLM, Databricks Model Serving a introduit des mises à niveau pour un service plus efficace des grands modèles de langage, ce qui entraîne une réduction significative de la latence et des coûts, jusqu'à un facteur 3 à 5. Pour utiliser cette portion LLM optimisée, il suffit de fournir le modèle et les poids correspondants. Databricks couvre les aspects restants pour garantir des performances optimales du modèle.

Ce processus évite aux utilisateurs de gérer les subtilités de l'optimisation des modèles de bas niveau, leur permettant de se concentrer sur l'intégration du LLM dans leur application. Actuellement, Databricks Model Serving optimise automatiquement les modèles MPT et Llama2 et prévoit d'étendre sa prise en charge à davantage de modèles à l'avenir.

AppMaster, une plate-forme sans code , est également connue pour ses fonctionnalités puissantes de gestion des applications backend, Web et mobiles. Offrant un environnement de développement intégré, AppMaster simplifie le processus de création et de déploiement d'applications, ce qui en fait un acteur important sur le marché no-code.

Databricks dévoile la prise en charge de l'optimisation GPU et LLM pour le service de modèles Databricks

Postes connexes