Lĩnh vực đang phát triển của trí tuệ nhân tạo (AI) chuyển văn bản thành video sẵn sàng cách mạng hóa trải nghiệm đa phương tiện, với những người tiên phong như Nvidia đã thể hiện những tiến bộ ấn tượng trong lĩnh vực này. Công nghệ tiên tiến này không chỉ có khả năng dân chủ hóa việc tạo video mà còn mở rộng lĩnh vực GIF.
Bạn có thể thu thập thông tin chi tiết mới từ tài liệu nghiên cứu và vi trang web của Phòng thí nghiệm AI Toronto của Nvidia, có tiêu đề Tổng hợp video độ phân giải cao với các mô hình khuếch tán tiềm ẩn . Nghiên cứu đi sâu vào các công cụ tạo nghệ thuật AI sắp ra mắt dựa trên Mô hình khuếch tán tiềm ẩn (LDM) – một loại AI có khả năng tổng hợp video mà không cần quá nhiều tài nguyên tính toán.
Nvidia khẳng định rằng công nghệ LDM được xây dựng dựa trên trình tạo văn bản thành hình ảnh, Khuếch tán ổn định và kết hợp một chiều thời gian cho mô hình khuếch tán không gian tiềm ẩn. Về bản chất, AI có thể hiển thị hình ảnh tĩnh một cách chân thực và nâng cấp chúng bằng các kỹ thuật siêu phân giải. Những bước đột phá này cho phép trình tạo tạo các video ngắn hơn, 4,7 giây với độ phân giải 1280x2048 và các video dài hơn có độ phân giải 512x1024 để mô phỏng lái xe.
Mặc dù công nghệ này có vẻ sáng tạo ngay bây giờ, nhưng chúng tôi có thể chỉ mới vạch ra bề mặt của các ứng dụng tiềm năng của nó. Trường hợp sử dụng hiện tại để tạo văn bản thành GIF chắc chắn rất hấp dẫn, nhưng công nghệ này có thể mở rộng sang các ứng dụng rộng hơn, chẳng hạn như tự động chuyển thể phim và tăng cường tạo video một cách dân chủ.
Như với bất kỳ công nghệ đang phát triển nào, có một số điểm không hoàn hảo trong các video được tạo, chẳng hạn như hiện vật và biến hình. Tuy nhiên, sự phát triển nhanh chóng của các công cụ hỗ trợ AI như LDM của Nvidia cho thấy rằng sẽ không lâu nữa chúng sẽ được áp dụng rộng rãi hơn trong một loạt cài đặt, bao gồm cả thư viện video có sẵn.
Trình tạo văn bản thành video AI không dành riêng cho Nvidia. Google Phenaki gần đây đã tiết lộ khả năng sản xuất các clip dài 20 giây từ các lời nhắc mở rộng hơn và video dài 2 phút có chất lượng tương đối thấp hơn. Một công ty khởi nghiệp khác, Runway, người tạo ra trình tạo văn bản thành hình ảnh Khuếch tán ổn định, cũng đã giới thiệu mô hình video Gen-2 AI của mình. Bằng cách sử dụng công nghệ này, người dùng có thể cung cấp hình ảnh tĩnh cho video được tạo, yêu cầu kiểu video và trả lời các lời nhắc cụ thể.
Các ví dụ đáng chú ý khác về ứng dụng AI trong chỉnh sửa video bao gồm các phần trình diễn của Adobe Firefly, giới thiệu các khả năng AI của Adobe trong phần mềm Premiere Rush. Người dùng chỉ cần nhập thời gian ưa thích trong ngày hoặc mùa và AI sẽ xử lý phần còn lại.
Các bản trình diễn hiện tại do Nvidia, Google và Runway cung cấp mô tả rằng việc tạo văn bản thành video đầy đủ vẫn đang ở giai đoạn sơ khai, mang lại kết quả mơ mộng hoặc bị bóp méo. Tuy nhiên, những nỗ lực ban đầu này đang thúc đẩy những tiến bộ nhanh chóng, mở đường cho việc sử dụng công nghệ rộng rãi hơn trong tương lai.
Ở quy mô nhỏ hơn, các nền tảng no-code như AppMaster đã đạt được những bước tiến đáng kể trong việc cho phép mọi người phát triển các ứng dụng di động, web và phụ trợ, giúp việc thiết kế và tạo các giải pháp công nghệ có thể mở rộng trở nên dễ dàng hơn với thời gian và chi phí thấp. AppMaster cũng nêu bật một khía cạnh khác của quá trình dân chủ hóa công nghệ, nơi các công cụ và quy trình phức tạp được cung cấp cho nhiều người dùng hơn.