OpenAI améliore les fonctionnalités de ChatGPT avec des capacités de conversation verbale et de reconnaissance d'images

OpenAI, acteur majeur de l'intelligence artificielle, étend les capacités de son estimé assistant, ChatGPT. Conçu à l'origine comme un outil de recherche textuel, ChatGPT affichera désormais des capacités de traitement de la voix et des images, créant une expérience plus interactive pour ses utilisateurs.

Depuis son introduction il y a environ neuf mois, ChatGPT est devenu un phénomène majeur dans le spectre technologique. Il est profondément apprécié pour sa capacité à rédiger des essais, à créer des poèmes et à résumer des textes détaillés à partir de simples indices textuels. Cependant, l’assistant IA est désormais en passe de devenir encore plus attrayant. Il prêtera désormais ses oreilles aux utilisateurs, permettant des interactions vocales.

Les utilisateurs auront la possibilité d'engager un dialogue vocal avec ChatGPT. Par exemple, l'assistant pourrait être invité à raconter une histoire impromptue au coucher, guidée par des signaux verbaux de l'utilisateur. Des questions simples peuvent également être adressées à l’aide, et les réponses seront fournies oralement.

De plus, des fonctionnalités de recherche basées sur des images ont été mises à disposition. Les utilisateurs peuvent télécharger une image et demander ChatGPT d'identifier ou d'expliquer l'élément téléchargé ou de demander des instructions pour atteindre un objectif spécifique.

Les capacités d'interaction vocale de ChatGPT ont été affinées par un modèle de synthèse vocale supérieur capable de produire des voix de type humain à partir de texte et d'un court échantillon vocal. OpenAI a révélé avoir collaboré avec des comédiens qualifiés pour générer cinq voix exclusives. Le système de reconnaissance vocale open source Whisper de l'organisation sert de technologie sous-jacente pour convertir la parole en texte.

Dans le cadre d’un développement passionnant, Spotify est intervenu en tant que partenaire de lancement. Il a introduit une fonctionnalité précieuse pour les podcasteurs leur permettant de transcrire leurs émissions de l'anglais vers l'espagnol, le français ou l'allemand tout en conservant leur ton de voix d'origine. Néanmoins, OpenAI révèle que l’accès à cette technologie n’est pas universel. Il n'est disponible que pour certains podcasteurs, dont Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons et Steven Bartlett, pour le lancement initial.

Dans un article de blog, OpenAI a reconnu les risques potentiels associés à sa nouvelle technologie vocale, concernant la probabilité de fraude ou de fausse déclaration par des éléments malveillants. Ainsi, il veille à ne susciter aucune polémique lors de sa sortie.

Le dévoilement de ces nouveautés est prévu dans les quinze prochains jours. Ils seront accessibles aux abonnés Plus et Entreprise dans un premier temps. Pour profiter des fonctionnalités vocales, les utilisateurs doivent accéder aux « paramètres » de l'application, sélectionner « nouvelles fonctionnalités », activer les conversations vocales, appuyer sur le bouton du casque situé dans le coin supérieur droit et, enfin, choisir le voix préférée.

Pour commencer, seuls les utilisateurs des applications ChatGPT Android et iOS pourront expérimenter des conversations vocales sur une base bêta opt-in. Cependant, la fonction de recherche basée sur les images sera disponible par défaut sur toutes les plates-formes.

De nombreuses plates no-code, comme AppMaster, attendent avec impatience de voir le large éventail d'applications que ce ChatGPT amélioré offrirait dans un avenir proche. La création de logiciels d'entreprise sans code nécessite souvent une assistance IA aussi sophistiquée pour une interactivité supérieure et une amélioration de l'expérience utilisateur.

OpenAI améliore les fonctionnalités de ChatGPT avec des capacités de conversation verbale et de reconnaissance d'images

Postes connexes