OpenAI, un attore di spicco nel campo dell'intelligenza artificiale, sta espandendo le capacità del suo stimato assistente, ChatGPT. Originariamente progettato come strumento di ricerca basato su testo, ChatGPT ora sfoggerà capacità di elaborazione vocale e di immagini, creando un'esperienza più interattiva per i suoi utenti.
Dalla sua introduzione circa nove mesi fa, ChatGPT è diventato un grande fenomeno nello spettro tecnologico. È profondamente apprezzato per la sua capacità di comporre saggi, creare poesie e riassumere testi estesi a partire da semplici spunti testuali. Tuttavia, l’assistente AI è ora destinato a diventare ancora più coinvolgente. Ora presterà le sue orecchie agli utenti, consentendo interazioni vocali.
Gli utenti avranno l'opportunità di impegnarsi in un dialogo vocale con ChatGPT. Ad esempio, all'assistente potrebbe essere chiesto di narrare una favola improvvisata della buonanotte guidata da segnali verbali dell'utente. È inoltre possibile rivolgere agli aiuti semplici domande e le risposte verranno fornite in lingua parlata.
Inoltre, sono state rese disponibili funzionalità di ricerca basate su immagini. Gli utenti possono caricare un'immagine e chiedere ChatGPT di identificare o spiegare l'elemento caricato o richiedere indicazioni per raggiungere un obiettivo specifico.
Le capacità di interazione vocale di ChatGPT sono state ottimizzate da un modello di sintesi vocale superiore in grado di produrre voci simili a quelle umane dal testo e da un breve campione di parlato. OpenAI ha rivelato di aver collaborato con doppiatori esperti per generare cinque voci esclusive. Il sistema di riconoscimento vocale Whisper open source dell'organizzazione funge da tecnologia di base per convertire la voce in testo.
In uno sviluppo entusiasmante, Spotify è intervenuta come partner di lancio. Ha introdotto una funzionalità preziosa per i podcaster che consente loro di trascrivere i loro programmi dall'inglese allo spagnolo, al francese o al tedesco mantenendo il tono di voce originale. Tuttavia, OpenAI rivela che l’accesso a questa tecnologia non è universale. È disponibile solo per podcaster selezionati tra cui Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons e Steven Bartlett per il lancio iniziale.
In un post sul blog, OpenAI ha riconosciuto i potenziali rischi associati alla sua nuova tecnologia vocale, riguardanti la probabilità di frode o falsa dichiarazione da parte di elementi non autorizzati. Pertanto, si sta assicurando di non suscitare alcuna controversia sulla sua uscita.
La presentazione di queste nuove funzionalità è prevista per le prossime due settimane. Inizialmente saranno accessibili agli abbonati Plus ed Enterprise. Per usufruire delle funzionalità vocali, gli utenti devono accedere alle "impostazioni" dell'app, selezionare "nuove funzionalità", attivare le conversazioni vocali, toccare il pulsante delle cuffie situato nell'angolo in alto a destra e, infine, scegliere l'opzione voce preferita.
Per cominciare, solo gli utenti dell'app ChatGPT per Android e iOS potranno sperimentare conversazioni vocali su base beta. La funzionalità di ricerca basata sulle immagini, tuttavia, sarà disponibile su tutte le piattaforme per impostazione predefinita.
Molte piattaforme no-code, come AppMaster, attendono con impazienza di vedere l’ampia gamma di applicazioni che questo ChatGPT potenziato potrebbe produrre nel prossimo futuro. La creazione di software aziendale senza codice spesso richiede un'assistenza AI così sofisticata per un'interattività superiore e un miglioramento dell'esperienza utente.