OpenAI erweitert die Funktionalität von ChatGPT durch verbale Konversation und Bilderkennungsfunktionen

OpenAI, ein führender Akteur im Bereich der künstlichen Intelligenz, erweitert die Fähigkeiten seines geschätzten Assistenten ChatGPT. ChatGPT wurde ursprünglich als textbasiertes Suchtool entwickelt und bietet nun Sprach- und Bildverarbeitungsfähigkeiten, um seinen Benutzern ein interaktiveres Erlebnis zu bieten.

Seit seiner Einführung vor etwa neun Monaten hat sich ChatGPT zu einem großen Phänomen im Technologiespektrum entwickelt. Es wird sehr geschätzt für seine Fähigkeit, Aufsätze zu verfassen, Gedichte zu verfassen und umfangreiche Texte aus einfachen Texthinweisen zusammenzufassen. Allerdings soll der KI-Assistent nun noch ansprechender werden. Es wird den Nutzern nun seine Ohren leihen und stimmliche Interaktionen ermöglichen.

Benutzer erhalten die Möglichkeit, mit ChatGPT an einem Sprachdialog teilzunehmen. Beispielsweise könnte der Assistent gebeten werden, eine spontane Gute-Nacht-Geschichte zu erzählen, die sich an verbalen Hinweisen des Benutzers orientiert. Auch einfache Fragen können an den Helfer gerichtet werden und die Antworten erfolgen in gesprochener Sprache.

Darüber hinaus wurden bildbasierte Suchfunktionen zur Verfügung gestellt. Benutzer können ein Bild hochladen und ChatGPT bitten, das hochgeladene Element zu identifizieren oder zu erklären oder Anweisungen zum Erreichen eines bestimmten Ziels anzufordern.

Die Fähigkeiten der Sprachinteraktion von ChatGPT wurden durch ein überlegenes Text-to-Speech-Modell verfeinert, das aus Text und einer kurzen Sprachprobe menschenähnliche Stimmen erzeugen kann. OpenAI gab bekannt, dass es mit erfahrenen Synchronsprechern zusammengearbeitet hat, um fünf exklusive Stimmen zu generieren. Das Open-Source-Spracherkennungssystem Whisper der Organisation dient als zugrunde liegende Technologie für die Umwandlung von Sprache in Text.

In einer spannenden Entwicklung ist Spotify als Launch-Partner eingestiegen. Es wurde eine wertvolle Funktion für Podcaster eingeführt, die es ihnen ermöglicht, ihre Sendungen vom Englischen ins Spanische, Französische oder Deutsche zu transkribieren und dabei ihren ursprünglichen Tonfall beizubehalten. Dennoch gibt OpenAI offen, dass der Zugang zu dieser Technologie nicht universell ist. Beim ersten Start steht es nur ausgewählten Podcastern zur Verfügung, darunter Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons und Steven Bartlett.

In einem Blogbeitrag erkannte OpenAI die potenziellen Risiken an, die mit seiner neuen Sprachtechnologie verbunden sind, und zwar hinsichtlich der Wahrscheinlichkeit von Betrug oder Falschdarstellungen durch betrügerische Elemente. Daher stellt es sicher, dass es bei seiner Veröffentlichung keine Kontroversen gibt.

Die Enthüllung dieser neuen Funktionen ist für die nächsten zwei Wochen geplant. Sie werden zunächst für Plus- und Enterprise-Abonnenten zugänglich sein. Um die Sprachfunktionen nutzen zu können, müssen Benutzer zu den „Einstellungen“ in der App navigieren, „Neue Funktionen“ auswählen, sich für Sprachgespräche anmelden, auf die Kopfhörertaste in der oberen rechten Ecke tippen und schließlich auswählen bevorzugte Stimme.

Zunächst können nur ChatGPT Benutzer der Android- und iOS-App Sprachgespräche auf Opt-in-Beta-Basis erleben. Die bildbasierte Suchfunktion wird jedoch standardmäßig auf allen Plattformen verfügbar sein.

Viele no-code Plattformen wie AppMaster warten gespannt darauf, das breite Anwendungsspektrum dieses erweiterten ChatGPT in naher Zukunft zu sehen. Die Entwicklung von Unternehmenssoftware ohne Code erfordert häufig eine derart ausgefeilte KI-Unterstützung für überlegene Interaktivität und Verbesserung des Benutzererlebnisses.

OpenAI erweitert die Funktionalität von ChatGPT durch verbale Konversation und Bilderkennungsfunktionen

Verwandte Beiträge