Databricks presenta compatibilidad con optimización de GPU y LLM para el servicio de modelos de Databricks

En un movimiento destinado a transformar radicalmente la implementación del modelo de IA, Databricks ha lanzado una vista previa pública del soporte de optimización de GPU y LLM para su Databricks Model Serving. Esta característica innovadora allana el camino para la implementación de una variedad de modelos de IA, como modelos de lenguaje grande (LLM) y modelos de visión, en la plataforma Lakehouse.

Databricks Model Serving ofrece optimización automática para LLM Serving. Esto elimina la necesidad de configuración manual, lo que genera resultados de alto rendimiento. Databricks afirma que este es el primer producto de servicio de GPU sin servidor basado en una plataforma unida de datos e inteligencia artificial. Permite a los usuarios diseñar e implementar aplicaciones de Inteligencia Artificial General (GenAI) sin problemas dentro de una plataforma, facilitando todos los pasos desde la ingesta de datos hasta la implementación y el monitoreo del modelo.

Con Databricks Model Serving, la implementación de modelos de IA se vuelve muy sencilla, incluso para los usuarios que carecen de un conocimiento integral de la infraestructura. Los usuarios obtienen la versatilidad de implementar innumerables modelos, incluidos aquellos basados en lenguaje natural, visión, audio, tabulares o personalizados, independientemente de su método de entrenamiento, ya sea desde cero, de código abierto o ajustado con datos patentados.

Para iniciar el proceso, los usuarios deben registrar su modelo con MLflow, publicar lo cual Databricks Model Serving creará un contenedor de nivel de producción completo con bibliotecas de GPU como CUDA y lo implementará en GPU sin servidor. Este servicio totalmente administrado se encarga de todo, desde la administración de instancias, el mantenimiento de la compatibilidad de versiones, las actualizaciones de parches e incluso ajusta automáticamente el escalado de las instancias de manera congruente con los flujos de tráfico, lo que genera ahorros sustanciales en gastos de infraestructura y al mismo tiempo optimiza el rendimiento y la latencia.

Además del lanzamiento de la compatibilidad con GPU y LLM, Databricks Model Serving ha introducido actualizaciones para una prestación más eficiente de modelos de lenguaje grandes, lo que resulta en una reducción significativa de la latencia y el costo, hasta un factor de 3 a 5 veces. Para utilizar esta publicación LLM optimizada, todo lo que hay que hacer es proporcionar el modelo y los pesos correspondientes. Databricks cubre los aspectos restantes para garantizar un rendimiento óptimo del modelo.

Este proceso libera a los usuarios de la necesidad de manejar complejidades de optimización de modelos de bajo nivel, permitiéndoles concentrarse en integrar LLM en su aplicación. Actualmente, Databricks Model Serving optimiza automáticamente los modelos MPT y Llama2 con planes en proceso para ampliar su soporte a más modelos en el futuro.

AppMaster, una plataforma sin código , también es conocida por sus potentes funciones en el manejo de aplicaciones backend, web y móviles. Al ofrecer un entorno de desarrollo integrado, AppMaster simplifica el proceso de creación e implementación de aplicaciones, lo que lo convierte en un actor fuerte en el mercado no-code.

Databricks presenta compatibilidad con optimización de GPU y LLM para el servicio de modelos de Databricks

Entradas relacionadas