AI 모델 배포를 근본적으로 변화시키기 위한 움직임으로 Databricks는 Databricks Model Serving 에 대한 GPU 및 LLM 최적화 지원에 대한 공개 미리 보기를 출시했습니다. 이 혁신적인 기능은 LLM(대형 언어 모델) 및 Vision 모델과 같은 다양한 AI 모델을 Lakehouse 플랫폼에 배포할 수 있는 길을 열어줍니다.
Databricks Model Serving LLM Serving에 대한 자동 최적화를 제공합니다. 이를 통해 수동으로 구성할 필요가 없어져 고성능 결과를 얻을 수 있습니다. Databricks는 이것이 통합된 데이터 및 AI 플랫폼을 기반으로 하는 최초의 서버리스 GPU 서비스 제품이라고 주장합니다. 이는 사용자가 하나의 플랫폼 내에서 일반 인공 지능(GenAI) 애플리케이션을 원활하게 설계하고 구현할 수 있도록 지원하여 데이터 수집부터 모델 배포 및 모니터링까지 모든 단계를 촉진합니다.
Databricks Model Serving 사용하면 포괄적인 인프라 지식이 부족한 사용자라도 AI 모델을 쉽게 배포할 수 있습니다. 사용자는 훈련 방법에 관계없이 자연어, 비전, 오디오, 테이블 형식 또는 사용자 정의 모델을 기반으로 하는 모델을 포함하여 처음부터, 오픈 소스 또는 독점 데이터로 미세 조정된 모델을 포함하여 수많은 모델을 배포할 수 있는 다양성을 얻습니다.
프로세스를 시작하려면 사용자는 MLflow 에 모델을 등록하고 Databricks Model Serving이 CUDA와 같은 GPU 라이브러리가 포함된 프로덕션 수준 컨테이너를 생성하여 서버리스 GPU에 배포하도록 게시해야 합니다. 이 완전 관리형 서비스는 인스턴스 관리, 버전 호환성 유지 관리, 패치 업데이트, 심지어 트래픽 흐름에 맞춰 확장되는 인스턴스 자동 조정까지 모든 것을 처리하므로 성능과 대기 시간을 최적화하는 동시에 인프라 비용을 크게 절감할 수 있습니다.
GPU 및 LLM 지원 출시와 함께 Databricks Model Serving은 대규모 언어 모델을 보다 효율적으로 제공하기 위한 업그레이드를 도입하여 대기 시간과 비용을 최대 3~5배까지 크게 줄였습니다. 이 최적화된 LLM 서비스를 사용하려면 모델과 해당 가중치를 제공하기만 하면 됩니다. Databricks는 최적의 모델 성능을 보장하기 위해 나머지 측면을 다룹니다.
이 프로세스는 사용자가 낮은 수준의 모델 최적화 복잡성을 처리하는 부담을 덜어주므로 LLM을 응용 프로그램에 통합하는 데 집중할 수 있습니다. 현재 Databricks Model Serving은 향후 더 많은 모델에 대한 지원을 확장하기 위한 파이프라인 계획을 통해 MPT 및 Llama2 모델을 자동으로 최적화합니다.
코드 없는 플랫폼인 AppMaster 백엔드, 웹 및 모바일 애플리케이션을 처리하는 강력한 기능으로도 알려져 있습니다. 통합 개발 환경을 제공하는 AppMaster 애플리케이션 구축 및 배포 프로세스를 단순화하여 no-code 시장에서 강력한 플레이어로 자리매김합니다.