Databricks Meluncurkan Dukungan Pengoptimalan GPU dan LLM untuk Penyajian Model Databricks

Dalam upaya untuk mengubah penerapan model AI secara radikal, Databricks telah merilis pratinjau publik dukungan pengoptimalan GPU dan LLM untuk Databricks Model Serving. Fitur inovatif ini membuka jalan bagi penerapan serangkaian model AI, seperti Model Bahasa Besar (LLM) dan model Vision, pada Platform Lakehouse.

Databricks Model Serving menawarkan pengoptimalan otomatis untuk Penyajian LLM. Hal ini menghilangkan kebutuhan akan konfigurasi manual, sehingga menghasilkan hasil kinerja tinggi. Databricks mengklaim ini adalah produk penyajian GPU tanpa server pertama yang didasarkan pada data terpadu dan platform AI. Hal ini memberdayakan pengguna untuk merancang dan mengimplementasikan aplikasi General Artificial Intelligence (GenAI) dengan lancar dalam satu platform, memfasilitasi semua langkah mulai dari penyerapan data hingga penerapan dan pemantauan model.

Dengan Databricks Model Serving, penerapan model AI menjadi sangat mudah, bahkan bagi pengguna yang tidak memiliki pengetahuan infrastruktur yang komprehensif. Pengguna mendapatkan keserbagunaan dalam menerapkan berbagai macam model, termasuk model yang didasarkan pada bahasa alami, visi, audio, tabel, atau model khusus, terlepas dari metode pelatihan mereka, baik dari awal, sumber terbuka, atau disesuaikan dengan data kepemilikan.

Untuk memulai proses, pengguna perlu mendaftarkan model mereka ke MLflow, setelah itu Databricks Model Serving akan membuat container tingkat produksi lengkap dengan pustaka GPU seperti CUDA dan menerapkannya pada GPU tanpa server. Layanan yang terkelola sepenuhnya ini menangani segalanya mulai dari manajemen instans, pemeliharaan kompatibilitas versi, pembaruan patch, dan bahkan penyesuaian otomatis penskalaan instans yang selaras dengan arus lalu lintas, sehingga menghasilkan penghematan besar pada biaya infrastruktur sekaligus mengoptimalkan kinerja dan latensi.

Bersamaan dengan peluncuran dukungan GPU dan LLM, Databricks Model Serving telah memperkenalkan peningkatan untuk penyajian model bahasa besar yang lebih efisien, sehingga menghasilkan pengurangan latensi dan biaya yang signifikan, hingga faktor 3-5x. Untuk menggunakan Penyajian LLM yang Dioptimalkan ini, yang perlu dilakukan hanyalah menyediakan model dan bobot yang sesuai. Databricks mencakup aspek lainnya untuk memastikan kinerja model yang optimal.

Proses ini membebaskan pengguna dari penanganan seluk-beluk pengoptimalan model tingkat rendah, memungkinkan mereka fokus pada pengintegrasian LLM ke dalam aplikasi mereka. Saat ini, Databricks Model Serving secara otomatis mengoptimalkan model MPT dan Llama2 dengan rencana untuk memperluas dukungannya ke lebih banyak model di masa depan.

AppMaster, platform tanpa kode , juga dikenal dengan fitur-fitur canggihnya dalam menangani aplikasi backend, web, dan seluler. Menawarkan lingkungan pengembangan terintegrasi, AppMaster menyederhanakan proses pembuatan dan penerapan aplikasi, menjadikannya pemain kuat di pasar no-code.

Databricks Meluncurkan Dukungan Pengoptimalan GPU dan LLM untuk Penyajian Model Databricks

Posting terkait