Databricks revela suporte de otimização de GPU e LLM para serviço de modelo do Databricks

Em um movimento definido para transformar radicalmente a implantação do modelo de IA, a Databricks lançou uma prévia pública do suporte de otimização de GPU e LLM para seu Databricks Model Serving. Este recurso inovador abre caminho para a implantação de uma variedade de modelos de IA, como Large Language Models (LLMs) e modelos Vision, na plataforma Lakehouse.

O Databricks Model Serving oferece otimização automática para LLM Serving. Isso elimina a necessidade de configuração manual, levando a resultados de alto desempenho. A Databricks afirma que este é o primeiro produto de serviço de GPU sem servidor baseado em uma plataforma unida de dados e IA. Ele capacita os usuários a projetar e implementar aplicativos de Inteligência Artificial Geral (GenAI) sem problemas em uma plataforma, facilitando todas as etapas, desde a ingestão de dados até a implantação e monitoramento do modelo.

Com o Databricks Model Serving, a implantação de modelos de IA torna-se muito fácil, mesmo para usuários sem conhecimento abrangente de infraestrutura. Os usuários obtêm a versatilidade de implantar uma infinidade de modelos, incluindo aqueles baseados em linguagem natural, visão, áudio, tabulares ou personalizados, independentemente do método de treinamento, seja do zero, de código aberto ou ajustado com dados proprietários.

Para iniciar o processo, os usuários precisam registrar seu modelo no MLflow, após o qual o Databricks Model Serving criará um contêiner de nível de produção completo com bibliotecas de GPU como CUDA e o implantará em GPUs sem servidor. Este serviço totalmente gerenciado cuida de tudo, desde gerenciamento de instâncias, manutenção de compatibilidade de versões, atualizações de patches e até mesmo ajuste automático de escala de instâncias congruentes com fluxos de tráfego, levando a economias substanciais em despesas de infraestrutura, ao mesmo tempo que otimiza o desempenho e a latência.

Juntamente com o lançamento do suporte GPU e LLM, o Databricks Model Serving introduziu atualizações para um serviço mais eficiente de modelos de linguagem grandes, resultando numa redução significativa na latência e no custo, até um fator de 3 a 5x. Para usar este serviço LLM otimizado, basta fornecer o modelo e os pesos correspondentes. Databricks cobre os aspectos restantes para garantir o desempenho ideal do modelo.

Esse processo libera os usuários de lidar com complexidades de otimização de modelos de baixo nível, permitindo que eles se concentrem na integração do LLM em seus aplicativos. Atualmente, o Databricks Model Serving otimiza automaticamente os modelos MPT e Llama2 com planos em andamento para estender seu suporte a mais modelos no futuro.

AppMaster, uma plataforma sem código , também é conhecida por seus recursos poderosos no manuseio de aplicativos back-end, web e móveis. Oferecendo um ambiente de desenvolvimento integrado, AppMaster simplifica o processo de construção e implantação de aplicativos, tornando-o um forte player no mercado no-code.

Databricks revela suporte de otimização de GPU e LLM para serviço de modelo do Databricks

Posts relacionados