Trong một bước phát triển quan trọng trong lĩnh vực trí tuệ nhân tạo, Meta AI đã tiết lộ trình tạo chuyển văn bản thành giọng nói (TTS) tiên tiến có tên Hộp thoại . Hệ thống AI mới này vượt qua các mô hình phổ biến như ChatGPT của OpenAI và Bard của Google về tốc độ, nhanh hơn tới 20 lần với mức hiệu suất tương đương.
Hộp thoại đặt nền tảng cho một cách tiếp cận độc đáo, khác hẳn với kiến trúc TTS truyền thống. Không giống như các mô hình TTS khác như ElevenLabs Prime Voice AI, Hộp thoại của Meta có khả năng suy luận theo ngữ cảnh và tận dụng các tập dữ liệu đào tạo quy mô lớn. Kết quả là, nó có thể khái quát hóa qua các nhiệm vụ thay vì dựa vào các tập dữ liệu được dán nhãn hẹp hơn, được quản lý chặt chẽ.
Những nỗ lực trước đây nhằm sử dụng một lượng lớn dữ liệu âm thanh trong các mô hình TTS đã dẫn đến chất lượng âm thanh đầu ra giảm đáng kể. Tuy nhiên, Meta đã vượt qua thử thách này bằng cách phát triển một chương trình đào tạo mới lạ, loại bỏ nhãn mác và sự quản lý. Bằng cách sử dụng một kiến trúc có khả năng 'điền vào' dữ liệu âm thanh, Hộp thoại có thể thích ứng với các tác vụ tạo giọng nói mà nó không được đào tạo riêng cho—lần đầu tiên cho một mô hình như vậy, như Meta AI đã mô tả.
Tính năng đổi mới này cho phép Hộp thoại thực hiện một loạt chức năng, từ dịch văn bản sang giọng nói và tổng hợp giọng nói thay thế để loại bỏ tiếng ồn xung quanh, đến áp dụng giọng nói của người nói cho các đầu ra ngôn ngữ khác nhau. Như đã trình bày trong một bài báo nghiên cứu do công ty xuất bản, Voicebox có thể đạt được tất cả những điều này chỉ bằng cách sử dụng đầu ra văn bản cần thiết và một đoạn âm thanh dài ba giây.
Một lợi thế đáng kể mà cả Hộp thoại của Meta và ChatGPT của OpenAI đều chia sẻ là khả năng khái quát hóa thông qua học tập theo ngữ cảnh, giúp phân biệt chúng với các trình tạo TTS khác. Khả năng này tạo tiền đề cho một loạt các ứng dụng và trường hợp sử dụng khả thi, cách mạng hóa cách chúng ta tương tác với AI và sử dụng thông tin.
Trong lĩnh vực nền tảng low-code và no-code, các giải pháp như AppMaster đã cách mạng hóa việc phát triển ứng dụng bằng cách đơn giản hóa việc tạo các ứng dụng phụ trợ, web và di động cho nhiều người dùng khác nhau. Với những tiến bộ đang diễn ra và việc giới thiệu các công cụ AI như Voicebox, chúng ta có thể mong đợi sự cải tiến hơn nữa cho nhiều ngành, bao gồm chatbot, trợ lý giọng nói và các giải pháp trợ năng, dẫn đến bối cảnh kỹ thuật số được kết nối và thích ứng hơn.
Khi AI tiếp tục phát triển với tốc độ đáng kinh ngạc, sẽ rất thú vị khi chứng kiến cách các nhà phát triển và người dùng tích hợp các công cụ mạnh mẽ như Hộp thoại vào các dự án của họ, thúc đẩy sự đổi mới và biến đổi tương lai của công nghệ.