Databricks が Databricks モデル提供のための GPU および LLM 最適化サポートを発表
Databricks は、Databricks Model Serving の GPU および LLM 最適化サポートの先駆的なパブリック プレビューを開始しました。

AI モデルのデプロイメントを根本的に変革する取り組みとして、Databricks はDatabricks Model Servingの GPU および LLM 最適化サポートのパブリック プレビューをリリースしました。この革新的な機能により、Lakehouse プラットフォーム上でラージ言語モデル (LLM) やビジョン モデルなどの一連の AI モデルを展開する道が開かれます。
Databricks Model Serving LLM Serving の自動最適化を提供します。これにより、手動構成が不要になり、高いパフォーマンスの結果が得られます。 Databricks は、これが統合されたデータと AI プラットフォームに基づいた初のサーバーレス GPU サービス製品であると主張しています。これにより、ユーザーは 1 つのプラットフォーム内で汎用人工知能 (GenAI) アプリケーションをスムーズに設計および実装できるようになり、データの取り込みからモデルのデプロイと監視に至るすべてのステップが容易になります。
Databricks Model Servingを使用すると、包括的なインフラストラクチャの知識がないユーザーでも、AI モデルのデプロイが簡単になります。ユーザーは、トレーニング方法に関係なく、ゼロから行うか、オープンソースで行うか、独自のデータで微調整するかに関係なく、自然言語、ビジョン、オーディオ、表形式、またはカスタムモデルを含む無数のモデルをデプロイする多用途性を得ることができます。
プロセスを開始するには、ユーザーはモデルをMLflowに登録し、Databricks Model Serving が CUDA などの GPU ライブラリを備えた運用レベルのコンテナーを作成し、サーバーレス GPU にデプロイすることをポストする必要があります。このフルマネージド サービスは、インスタンス管理、バージョン互換性メンテナンス、パッチ更新に至るまですべてを処理し、さらにトラフィック フローに合わせてインスタンスのスケーリングを自動調整するため、パフォーマンスとレイテンシーを最適化しながらインフラストラクチャ費用の大幅な節約につながります。
GPU と LLM のサポートの開始に加えて、Databricks Model Serving では、大規模な言語モデルをより効率的に提供するためのアップグレードが導入され、その結果、遅延とコストが最大 3 ~ 5 倍の大幅な削減につながりました。この最適化された LLM サービングを使用するには、モデルと対応する重みを指定するだけです。 Databricks は、モデルの最適なパフォーマンスを確保するために残りの側面をカバーします。
このプロセスにより、ユーザーは低レベルのモデル最適化の複雑な処理の負担が軽減され、LLM をアプリケーションに統合することに集中できるようになります。現在、Databricks Model Serving は MPT および Llama2 モデルを自動最適化しており、将来的にはサポートをさらに多くのモデルに拡張する計画がパイプラインにあります。
ノーコード プラットフォームであるAppMaster 、バックエンド、Web、およびモバイル アプリケーションを処理する強力な機能でも知られています。統合開発環境を提供するAppMaster 、アプリケーションの構築と展開のプロセスを簡素化し、 no-code市場で強力なプレーヤーとなっています。


