인공 지능 영역의 중요한 발전에서 Meta AI는 Voicebox 라는 고급 텍스트 음성 변환(TTS) 생성기를 공개했습니다. 이 새로운 AI 시스템은 속도면에서 OpenAI의 ChatGPT 및 Google의 Bard와 같은 인기 있는 모델을 능가하며 동일한 성능 수준에서 최대 20배 더 빠릅니다.
Voicebox는 기존의 TTS 아키텍처에서 크게 벗어난 고유한 접근 방식을 기반으로 합니다. ElevenLabs Prime Voice AI와 같은 다른 TTS 모델과 달리 Meta의 Voicebox는 상황에 맞는 추론이 가능하고 대규모 교육 데이터 세트를 활용할 수 있습니다. 결과적으로 더 좁고 고도로 선별되고 레이블이 지정된 데이터 세트에 의존하지 않고 작업 전반에 걸쳐 일반화할 수 있습니다.
TTS 모델에서 방대한 양의 오디오 데이터를 사용하려는 이전 시도는 오디오 출력 품질을 크게 떨어뜨렸습니다. 그러나 Meta는 레이블과 큐레이션을 없애는 새로운 교육 체계를 개발하여 이 문제를 극복했습니다. 오디오 데이터를 '채울' 수 있는 아키텍처를 채택함으로써 Voicebox는 특별히 훈련되지 않은 음성 생성 작업에 적응할 수 있습니다. 이는 Meta AI에서 설명하는 것처럼 이러한 모델에서는 처음입니다.
이 혁신적인 기능을 통해 Voicebox는 텍스트를 음성으로 번역하고 대체 음성을 합성하여 배경 소음을 제거하고 화자의 음성을 다양한 언어 출력에 적용하는 등 다양한 기능을 수행할 수 있습니다. 회사에서 발행한 연구 논문에서 입증된 바와 같이 Voicebox는 필요한 텍스트 출력과 3초 분량의 오디오 클립만 사용하여 이 모든 것을 달성할 수 있습니다.
Meta의 Voicebox와 OpenAI의 ChatGPT가 공유하는 중요한 이점은 다른 TTS 생성기와 구별되는 상황 내 학습을 통해 일반화하는 능력입니다. 이 기능은 가능한 다양한 응용 프로그램 및 사용 사례를 위한 단계를 설정하여 우리가 AI와 상호 작용하고 정보를 소비하는 방식을 혁신합니다.
low-code 및 no-code 플랫폼 영역에서 AppMaster 와 같은 솔루션은 다양한 사용자를 위해 백엔드, 웹 및 모바일 애플리케이션 생성을 단순화하여 애플리케이션 개발에 혁신을 가져왔습니다. 발전이 진행되고 Voicebox와 같은 AI 도구가 도입됨에 따라 챗봇, 음성 비서 및 접근성 솔루션을 포함한 여러 산업에 대한 추가 향상을 기대할 수 있으며, 이는 보다 연결되고 적응력이 뛰어난 디지털 환경으로 이어질 것입니다.
AI가 놀라운 속도로 계속 발전함에 따라 개발자와 사용자가 Voicebox와 같은 강력한 도구를 프로젝트에 통합하여 혁신을 주도하고 기술의 미래를 변화시키는 방법을 목격하게 될 것입니다.