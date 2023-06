W ramach znaczącego rozwoju w dziedzinie sztucznej inteligencji, Meta AI ujawniła swój zaawansowany generator zamiany tekstu na mowę (TTS) o nazwie Voicebox. Ten nowy system sztucznej inteligencji przewyższa popularne modele, takie jak ChatGPT OpenAI i Bard Google pod względem szybkości, będąc do 20 razy szybszym przy równoważnych poziomach wydajności.

Voicebox opiera się na unikalnym podejściu, drastycznie odbiegającym od tradycyjnej architektury TTS. W przeciwieństwie do innych modeli TTS, takich jak ElevenLabs Prime Voice AI, Voicebox firmy Meta jest w stanie wnioskować kontekstowo i wykorzystywać duże zestawy danych szkoleniowych. W rezultacie może generalizować w różnych zadaniach, zamiast polegać na węższych, wysoce wyselekcjonowanych, oznaczonych zestawach danych.

Wcześniejsze próby wykorzystania ogromnych ilości danych audio w modelach TTS doprowadziły do znacznego obniżenia jakości dźwięku wyjściowego. Jednak Meta pokonała to wyzwanie, opracowując nowatorski schemat szkolenia, który eliminuje etykiety i kuratorstwo. Dzięki zastosowaniu architektury zdolnej do "wypełniania" danych audio, Voicebox może dostosować się do zadań generowania mowy, do których nie został specjalnie przeszkolony - co jest pierwszym tego typu modelem opisanym przez Meta AI.

Ta innowacyjna funkcja pozwala Voicebox na wykonywanie szeregu funkcji, od tłumaczenia tekstu na mowę i syntezy mowy zastępczej w celu wyeliminowania szumów tła, po zastosowanie głosu mówcy do różnych wyjść językowych. Jak wykazano w artykule badawczym opublikowanym przez firmę, Voicebox może osiągnąć to wszystko przy użyciu tylko wymaganego tekstu wyjściowego i trzysekundowego klipu audio.

Istotną zaletą zarówno Voicebox firmy Meta, jak i ChatGPT firmy OpenAI jest ich zdolność do generalizacji poprzez uczenie się w kontekście, co odróżnia je od innych generatorów TTS. Zdolność ta stanowi podstawę dla szerokiej gamy możliwych zastosowań i przypadków użycia, rewolucjonizując sposób interakcji ze sztuczną inteligencją i konsumowania informacji.

W dziedzinie platform low-code i no-code, rozwiązania takie jak AppMaster zrewolucjonizowały tworzenie aplikacji, upraszczając tworzenie aplikacji backendowych, internetowych i mobilnych dla szerokiego grona użytkowników. Wraz z postępującym rozwojem i wprowadzeniem narzędzi AI, takich jak Voicebox, możemy spodziewać się dalszych ulepszeń w wielu branżach, w tym chatbotów, asystentów głosowych i rozwiązań ułatwiających dostęp, prowadzących do bardziej połączonego i adaptacyjnego krajobrazu cyfrowego.

Ponieważ sztuczna inteligencja rozwija się w zdumiewającym tempie, fascynujące będzie obserwowanie, jak programiści i użytkownicy integrują potężne narzędzia, takie jak Voicebox, w swoich projektach, napędzając innowacje i zmieniając przyszłość technologii.