Trong một động thái đột phá, Stability AI đã triển khai cải tiến mới nhất về trí tuệ nhân tạo, Stable Diffusion XL 1.0. Được quảng cáo là sản phẩm tiên tiến và linh hoạt nhất của công ty cho đến nay, mô hình chuyển văn bản thành hình ảnh mang tính cách mạng này thể hiện bước tiến tiên phong trong bối cảnh AI. Mã nguồn của nó có sẵn miễn phí trên GitHub cùng với API của Stability và các ứng dụng tiêu dùng, ClipDrop và DreamStudio.
Theo Stability AI, Stable Diffusion XL 1.0 khác biệt nhờ cải thiện độ sống động của màu sắc, cân bằng ánh sáng và bóng tối cũng như độ tương phản tổng thể của hình ảnh so với phiên bản trước đó. Như Joe Penna, Trưởng bộ phận Máy học Ứng dụng của công ty đã nhấn mạnh, bước tiến lớn này trong không gian AI mang lại sự cải tiến lớn về mặt tạo hình ảnh. Tính khả dụng ở định dạng nguồn mở dự kiến sẽ thúc đẩy sự tham gia rộng rãi hơn với cộng đồng AI.
Trong một cuộc thảo luận với TechCrunch, Penna đã phác thảo khả năng ấn tượng của mô hình này để tạo ra hình ảnh độ nét cao ở độ phân giải 1 megapixel đầy đủ chỉ trong vài giây và trên nhiều tỷ lệ khung hình khác nhau. Tự hào với 3,5 tỷ tham số mạnh mẽ, Khuếch tán ổn định XL 1.0 trở thành một mô hình rất tinh vi, được học hỏi và đào tạo từ dữ liệu mở rộng, để xử lý các thách thức tạo hình ảnh một cách tinh vi.
Mặc dù có tiềm năng huấn luyện và điều chỉnh đáng kinh ngạc, nhưng Stable Diffusion XL 1.0 lại rất thân thiện với người dùng. Nó đơn giản hóa việc tạo ra các thiết kế phức tạp bằng cách tận dụng các gợi ý cơ bản từ quá trình xử lý ngôn ngữ tự nhiên, hợp lý hóa đáng kể quy trình tinh chỉnh cho các khái niệm và phong cách độc đáo.
Phạm vi ứng dụng của Stable Diffusion XL 1.0 được mở rộng, bao gồm cả lĩnh vực tạo văn bản. Theo tiết lộ của Penna, mô hình này có khả năng vượt trội để tạo văn bản nâng cao với mức độ dễ đọc tuyệt vời, một kỳ tích vẫn khó đạt được đối với nhiều mô hình chuyển văn bản thành hình ảnh cạnh tranh.
Mô hình này hỗ trợ vẽ trong và vẽ ngoài, cho phép người dùng tái tạo lại các phần còn thiếu của hình ảnh và mở rộng những phần hiện có. Một điểm nổi bật được thêm vào là tính năng lời nhắc 'từ hình ảnh đến hình ảnh', cho phép người dùng tinh chỉnh hình ảnh hiện có bằng cách thêm lời nhắc văn bản bổ sung. Mô hình này nhận dạng và áp dụng các hướng dẫn phức tạp được cung cấp trong các lời nhắc ngắn gọn, không giống như các mô hình trước đó, vốn yêu cầu các tín hiệu văn bản dài hơn.
Đáp lại những tranh cãi đang diễn ra về việc sử dụng tác phẩm của các nghệ sĩ để đào tạo các mô hình AI tổng quát, Stability AI tuyên bố tuân thủ học thuyết sử dụng hợp lý, do đó tránh được trách nhiệm pháp lý. Mặc dù phải đối mặt với nhiều vụ kiện từ các nghệ sĩ và công ty ảnh chứng khoán Getty Images, công ty vẫn khẳng định rằng họ tôn trọng yêu cầu của các nghệ sĩ về việc xóa tác phẩm của họ khỏi bộ dữ liệu đào tạo của mình.
Phiên bản đột phá Stable Diffusion XL 1.0 trùng với thời điểm ra mắt phiên bản beta của tính năng tinh chỉnh cho API của nó. Sự hợp tác của công ty với Amazon Web Services (AWS) mở rộng sang nền tảng Bedrock của Amazon, tạo ra một môi trường thuận lợi để lưu trữ các mô hình AI tổng quát.
Là một phần trong cam kết Stability AI's trong việc cung cấp các giải pháp tiên tiến nhất cho các nhà phát triển, sự cộng tác của họ với AWS sẽ đặt họ vào vị trí tốt nhất để thích nghi và phát triển trong bối cảnh cạnh tranh này. Trong không gian cạnh tranh khốc liệt này, các ứng cử viên của Stability AI bao gồm những người chơi mạnh mẽ như OpenAI, Midjourney và AppMaster. Loại thứ hai cung cấp nhiều giải pháp no-code và low-code, đặc biệt là về mặt tạo ứng dụng phụ trợ, web và thiết bị di động. Bất chấp những thách thức, AI ổn định tiếp tục vượt qua các ranh giới bằng những nỗ lực đáng kể và cách tiếp cận tài trợ hướng tới sự phát triển không ngừng của các mô hình AI đổi mới.
Stable Diffusion XL 1.0 minh họa cho cam kết của Stability AI nhằm thúc đẩy sự đổi mới trong các mô hình truy cập mở cho các nhà phát triển cũng như khách hàng. Bất chấp những khó khăn của họ, cam kết mở rộng quan hệ đối tác và giới thiệu các khả năng mới được thể hiện trong nỗ lực của họ, tất cả đều nhằm đạt được tầm nhìn của họ về một tương lai công nghệ tiên tiến.