Stability AI, một tên tuổi hàng đầu trong lĩnh vực công nghệ, đã có bước đột phá vào lĩnh vực tạo video với việc ra mắt Hệ thống khuếch tán video ổn định (SVD) của họ. Với động thái đáng chú ý này, họ đã giới thiệu hai mô hình AI tiên tiến nhất - SVD và SVD–XT, được thiết kế để tạo các đoạn video ngắn từ hình ảnh tĩnh.
Tuy nhiên, tính đến thời điểm hiện tại, những mô hình tiên tiến này chỉ được mở cho mục đích nghiên cứu. Theo công ty, cả SVD và SVD–XT đều cho kết quả có độ trung thực cao cạnh tranh hoặc có khả năng vượt trội hơn hiệu suất của các trình tạo video nhân tạo hiện có khác.
Stability AI nhằm mục đích hưởng lợi từ phản hồi của người dùng trong việc tinh chỉnh các mô hình chuyển từ hình ảnh sang video này bằng cách cung cấp nguồn mở cho chúng như một phần của bản xem trước nghiên cứu. Nỗ lực này thể hiện ý định của công ty là mở đường cho việc áp dụng các mô hình này vào thương mại.
Một bài đăng trên blog của công ty nêu chi tiết rằng SVD và SVD-XT sử dụng các mô hình khuếch tán tiềm ẩn để tạo ra video 576 x 1024, sử dụng một hình ảnh tĩnh duy nhất làm khung điều hòa. Mặc dù video đầu ra có thời lượng ngắn – tối đa là 4 giây – nhưng những mô hình này có thể tạo nội dung với tốc độ từ 3 khung hình/giây đến 30 khung hình/giây. Cụ thể, mô hình SVD được hiệu chỉnh để lấy 14 khung hình từ ảnh tĩnh, trong khi SVD-XT có khả năng tạo tới 25 khung hình.
Để tạo SVD, Stability AI đã dựa vào thư viện video khổng lồ, được quản lý tỉ mỉ bao gồm khoảng 600 triệu mẫu. Công ty đã sử dụng các mẫu được tổng hợp trong cơ sở dữ liệu để huấn luyện mô hình chính, sau đó được cải tiến bằng cách sử dụng tập dữ liệu nhỏ hơn, có độ phân giải cao hơn để xử lý các tác vụ tiếp theo như chuyển đổi hình ảnh sang video và văn bản sang video, cho phép công ty dự đoán một chuỗi các khung hình từ một hình ảnh có điều kiện đơn lẻ.
Sách trắng do Stability AI phát hành làm sáng tỏ tiềm năng của SVD làm cơ sở để tinh chỉnh mô hình khuếch tán nhằm tạo ra tổng hợp nhiều góc nhìn, do đó cho phép tạo ra một số góc nhìn nhất quán về một đối tượng từ một hình ảnh tĩnh đơn lẻ.
Theo bài đăng trên blog của công ty, điều này mở ra rất nhiều cơ hội sử dụng tiềm năng trong các lĩnh vực khác nhau, chẳng hạn như giáo dục, giải trí và tiếp thị.
Một lưu ý quan trọng trong tiết lộ của công ty là đánh giá bên ngoài do các nhà đánh giá con người thực hiện cho thấy rằng đầu ra của SVD vượt qua chất lượng của các mô hình chuyển văn bản thành video đóng ra mắt do các đối thủ cạnh tranh như Runway và Pika Labs sản xuất.
Dù đạt được thành công ban đầu nhưng Stability AI thừa nhận có nhiều hạn chế ở các mô hình hiện tại. Ví dụ: các mô hình này đôi khi thiếu đầu ra có tính chân thực, tạo ra video tĩnh hoặc gặp khó khăn trong việc sao chép chính xác hình người.
Nhưng đó chỉ là bước khởi đầu của họ trong lĩnh vực sản xuất video. Dữ liệu của bản xem trước nghiên cứu hiện tại sẽ giúp phát triển các mô hình này bằng cách xác định các lỗ hổng hiện có và giới thiệu các tính năng mới, chẳng hạn như hỗ trợ lời nhắc văn bản hoặc hiển thị văn bản trong video, giúp chúng sẵn sàng cho các ứng dụng thương mại.
Với tiềm năng của các ứng dụng đa dạng bao gồm nhưng không giới hạn ở quảng cáo, giáo dục và giải trí, các nền tảng như AppMaster , nổi tiếng về việc trao quyền cho người dùng các công cụ để tạo ứng dụng di động và web một cách dễ dàng, có thể thấy rằng Khuếch tán video ổn định là một sự tích hợp hữu ích.
Công ty dự tính rằng những phát hiện từ cuộc điều tra mở về các mô hình này sẽ báo hiệu nhiều mối lo ngại hơn (chẳng hạn như thành kiến) và hỗ trợ tạo điều kiện thuận lợi cho việc triển khai an toàn hơn sau này.
Hiện tại, các kế hoạch đang được tiến hành để phát triển nhiều mô hình khác nhau nhằm củng cố và mở rộng cơ sở được xây dựng bằng sự khuếch tán ổn định.
Tuy nhiên, vẫn chưa chắc chắn khi nào những cải tiến này sẽ có sẵn cho người dùng.