Databricks ra mắt hỗ trợ tối ưu hóa GPU và LLM để phân phát mô hình Databricks

Trong một động thái nhằm chuyển đổi hoàn toàn việc triển khai mô hình AI, Databricks đã phát hành bản xem trước công khai về hỗ trợ tối ưu hóa GPU và LLM cho Databricks Model Serving của mình. Tính năng cải tiến này mở đường cho việc triển khai một loạt mô hình AI, chẳng hạn như Mô hình ngôn ngữ lớn (LLM) và mô hình Tầm nhìn, trên Nền tảng Lakehouse.

Databricks Model Serving cung cấp tối ưu hóa tự động cho Cung cấp LLM. Điều này giúp loại bỏ nhu cầu cấu hình thủ công, mang lại kết quả hiệu suất cao. Databricks tuyên bố đây là sản phẩm phục vụ GPU không có máy chủ đầu tiên dựa trên nền tảng dữ liệu và AI hợp nhất. Nó trao quyền cho người dùng thiết kế và triển khai các ứng dụng Trí tuệ nhân tạo chung (GenAI) một cách suôn sẻ trong một nền tảng, tạo điều kiện thuận lợi cho tất cả các bước ngay từ việc nhập dữ liệu đến triển khai và giám sát mô hình.

Với Databricks Model Serving, việc triển khai các mô hình AI trở nên dễ dàng, ngay cả đối với người dùng thiếu kiến thức toàn diện về cơ sở hạ tầng. Người dùng có được tính linh hoạt khi triển khai vô số mô hình, bao gồm cả những mô hình dựa trên ngôn ngữ tự nhiên, hình ảnh, âm thanh, dạng bảng hoặc tùy chỉnh, bất kể phương pháp đào tạo của họ là từ đầu, nguồn mở hoặc được tinh chỉnh bằng dữ liệu độc quyền.

Để bắt đầu quá trình, người dùng cần đăng ký mô hình của họ với MLflow, đăng Dịch vụ mô hình Databricks sẽ tạo một vùng chứa cấp sản xuất hoàn chỉnh với các thư viện GPU như CUDA và triển khai nó trên GPU không có máy chủ. Dịch vụ được quản lý hoàn toàn này đảm nhiệm mọi việc từ quản lý phiên bản, bảo trì khả năng tương thích phiên bản, cập nhật bản vá và thậm chí tự động điều chỉnh quy mô phiên bản phù hợp với luồng lưu lượng, giúp tiết kiệm đáng kể chi phí cơ sở hạ tầng trong khi tối ưu hóa hiệu suất và độ trễ.

Cùng với việc ra mắt hỗ trợ GPU và LLM, Databricks Model Serve đã giới thiệu các bản nâng cấp để phân phát hiệu quả hơn các mô hình ngôn ngữ lớn, giúp giảm đáng kể độ trễ và chi phí, lên tới hệ số 3-5x. Để sử dụng Phân phối LLM được tối ưu hóa này, tất cả những gì người ta cần làm là cung cấp mô hình và trọng số tương ứng. Databricks bao gồm các khía cạnh còn lại để đảm bảo hiệu suất mô hình tối ưu.

Quá trình này giúp người dùng giảm bớt gánh nặng khỏi việc xử lý các vấn đề phức tạp trong tối ưu hóa mô hình cấp thấp, cho phép họ tập trung vào việc tích hợp LLM vào ứng dụng của mình. Hiện tại, Databricks Model Serve tự động tối ưu hóa các mô hình MPT và Llama2 với các kế hoạch đang được triển khai nhằm mở rộng hỗ trợ cho nhiều mô hình hơn trong tương lai.

AppMaster, một nền tảng không cần mã , còn được biết đến với các tính năng mạnh mẽ trong việc xử lý các ứng dụng phụ trợ, web và di động. Cung cấp một môi trường phát triển tích hợp, AppMaster đơn giản hóa quá trình xây dựng và triển khai các ứng dụng, khiến nó trở thành một công ty mạnh mẽ trong thị trường no-code.

Databricks ra mắt hỗ trợ tối ưu hóa GPU và LLM để phân phát mô hình Databricks

Bài viết liên quan