为了从根本上改变 AI 模型部署,Databricks 发布了对其Databricks Model Serving的 GPU 和 LLM 优化支持的公共预览版。这一创新功能为 Lakehouse 平台上部署一系列人工智能模型铺平了道路,例如大型语言模型 (LLM) 和视觉模型。
Databricks Model Serving为 LLM 服务提供自动优化。这消除了手动配置的需要,从而获得高性能结果。 Databricks 声称这是第一个基于统一数据和人工智能平台的无服务器 GPU 服务产品。它使用户能够在一个平台内顺利地设计和实施通用人工智能 (GenAI) 应用程序,从而促进从数据摄取到模型部署和监控的所有步骤。
借助Databricks Model Serving ,部署 AI 模型变得轻而易举,即使对于缺乏全面基础设施知识的用户也是如此。用户可以获得部署无数模型的多功能性,包括基于自然语言、视觉、音频、表格或自定义模型的模型,无论他们的训练方法如何,无论是从头开始、开源还是使用专有数据进行微调。
要启动该过程,用户需要向MLflow注册其模型,之后 Databricks Model Serving 将创建一个包含 CUDA 等 GPU 库的生产级容器,并将其部署在无服务器 GPU 上。这种完全托管的服务负责处理从实例管理、版本兼容性维护、补丁更新,甚至自动调整实例以与流量一致的扩展等所有事务,从而在优化性能和延迟的同时大幅节省基础设施费用。
除了推出 GPU 和 LLM 支持之外,Databricks Model Serving 还推出了升级,以更高效地服务大型语言模型,从而显着降低延迟和成本,最高可达 3-5 倍。要使用这一优化的 LLM 服务,只需提供模型和相应的权重即可。 Databricks 涵盖了其余方面,以确保最佳模型性能。
此过程减轻了用户处理复杂的低级模型优化的负担,使他们能够专注于将 LLM 集成到他们的应用程序中。目前,Databricks Model Serving 自动优化 MPT 和 Llama2 模型,并计划在未来将其支持扩展到更多模型。
AppMaster是一个无代码平台,还以其处理后端、Web 和移动应用程序的强大功能而闻名。 AppMaster提供集成开发环境,简化了应用程序的构建和部署过程,使其成为no-code市场的强大参与者。