Databricks представляет поддержку оптимизации GPU и LLM для обслуживания моделей Databricks

01, окт. 2023

В стремлении радикально изменить развертывание моделей искусственного интеллекта компания Databricks выпустила общедоступную предварительную версию поддержки оптимизации графических процессоров и LLM для Databricks Model Serving. Эта инновационная функция открывает путь к развертыванию множества моделей искусственного интеллекта, таких как модели большого языка (LLM) и модели Vision, на платформе Lakehouse.

Databricks Model Serving предлагает автоматическую оптимизацию для обслуживания LLM. Это устраняет необходимость ручной настройки, что приводит к повышению производительности. Databricks утверждает, что это первый бессерверный продукт для обслуживания графических процессоров, основанный на единой платформе данных и искусственного интеллекта. Оно позволяет пользователям плавно разрабатывать и внедрять приложения общего искусственного интеллекта (GenAI) на одной платформе, упрощая все этапы — от приема данных до развертывания модели и мониторинга.

Благодаря Databricks Model Serving развертывание моделей искусственного интеллекта становится проще даже для пользователей, не имеющих комплексных знаний об инфраструктуре. Пользователи получают возможность развертывать множество моделей, в том числе основанных на естественном языке, зрении, аудио, табличных или пользовательских моделях, независимо от их метода обучения, будь то с нуля, с открытым исходным кодом или с тонкой настройкой с использованием собственных данных.

Чтобы начать процесс, пользователям необходимо зарегистрировать свою модель в MLflow, после чего Databricks Model Serving создаст контейнер производственного уровня с библиотеками графических процессоров, такими как CUDA, и развернет его на бессерверных графических процессорах. Эта полностью управляемая служба заботится обо всем: от управления экземплярами, обеспечения совместимости версий, обновлений исправлений и даже автоматической настройки масштабирования экземпляров в соответствии с потоками трафика, что приводит к существенной экономии расходов на инфраструктуру при одновременной оптимизации производительности и задержки.

Наряду с запуском поддержки графического процессора и LLM, Databricks Model Serving представила обновления для более эффективного обслуживания больших языковых моделей, что привело к значительному сокращению задержек и затрат — в 3–5 раз. Для использования этого оптимизированного обслуживания LLM все, что нужно сделать, — это предоставить модель и соответствующие веса. Databricks охватывает оставшиеся аспекты, чтобы обеспечить оптимальную производительность модели.

Этот процесс освобождает пользователей от необходимости решать тонкости низкоуровневой оптимизации моделей, позволяя им сосредоточиться на интеграции LLM в свое приложение. В настоящее время Databricks Model Serving автоматически оптимизирует модели MPT и Llama2, и в будущем планируется расширить поддержку большего количества моделей.

AppMaster, no-code платформа, также известна своими мощными функциями обработки серверных, веб- и мобильных приложений. Предлагая интегрированную среду разработки, AppMaster упрощает процесс создания и развертывания приложений, что делает его сильным игроком на рынке no-code.

Databricks представляет поддержку оптимизации GPU и LLM для обслуживания моделей Databricks

Похожие статьи