OpenAI, wybitny gracz w dziedzinie sztucznej inteligencji, rozszerza możliwości swojego cenionego asystenta, ChatGPT. Pierwotnie zaprojektowany jako narzędzie do wyszukiwania tekstowego, ChatGPT będzie teraz mógł pochwalić się możliwościami przetwarzania głosu i obrazu, zapewniając użytkownikom bardziej interaktywne doświadczenia.
Od czasu wprowadzenia na rynek około dziewięć miesięcy temu ChatGPT stał się dużym fenomenem w spektrum technologii. Jest głęboko ceniony za możliwość pisania esejów, tworzenia wierszy i podsumowywania obszernych tekstów na podstawie prostych wskazówek tekstowych. Jednak asystent AI stanie się teraz jeszcze bardziej wciągający. Teraz będzie służyć użytkownikom swoimi uszami, umożliwiając interakcje głosowe.
Użytkownicy będą mieli możliwość prowadzenia dialogu głosowego za pomocą ChatGPT. Na przykład asystenta można poprosić o opowiedzenie zaimprowizowanej historyjki na dobranoc, kierując się słownymi wskazówkami użytkownika. Pomocne mogą być także kierowane proste pytania, a odpowiedzi będą udzielane w języku mówionym.
Dodatkowo udostępniono funkcje wyszukiwania opartego na obrazach. Użytkownicy mogą przesłać obraz i poprosić ChatGPT o zidentyfikowanie lub wyjaśnienie przesłanego elementu lub poprosić o wskazówki dotyczące osiągnięcia określonego celu.
Możliwości interakcji głosowej ChatGPT zostały dostrojone przez doskonały model zamiany tekstu na mowę, który może generować głosy ludzkie na podstawie tekstu i krótkiej próbki mowy. OpenAI ujawniło, że współpracowało z wykwalifikowanymi aktorami głosowymi, aby wygenerować pięć ekskluzywnych głosów. Opracowany przez tę organizację system rozpoznawania mowy Whisper o otwartym kodzie źródłowym służy jako podstawowa technologia konwersji mowy na tekst.
W ramach ekscytującego rozwoju Spotify wkroczył jako partner startowy. Wprowadzono cenną funkcję dla podcasterów, umożliwiającą im transkrypcję programów z języka angielskiego na hiszpański, francuski lub niemiecki przy zachowaniu oryginalnego tonu głosu. Niemniej jednak OpenAI ujawnia, że dostęp do tej technologii nie jest powszechny. Jest ona dostępna tylko dla wybranych podcasterów, w tym Daxa Sheparda, Moniki Padman, Lexa Fridmana, Billa Simmonsa i Stevena Bartletta podczas pierwszego uruchomienia.
W poście na blogu OpenAI potwierdziło potencjalne ryzyko związane z nową technologią głosową, dotyczące prawdopodobieństwa oszustwa lub wprowadzenia w błąd przez nieuczciwe elementy. Dlatego stara się nie wzbudzać żadnych kontrowersji w związku z jego wydaniem.
Premiera tych nowych funkcji planowana jest na następne dwa tygodnie. Początkowo będą dostępne dla abonentów Plusa i Enterprise. Aby korzystać z funkcji głosowych, użytkownicy muszą przejść do „ustawień” aplikacji, wybrać „nowe funkcje”, wyrazić zgodę na rozmowy głosowe, dotknąć przycisku słuchawek znajdującego się w prawym górnym rogu i na koniec wybrać preferowany głos.
Na początek tylko użytkownicy aplikacji ChatGPT na Androida i iOS będą mogli korzystać z rozmów głosowych w ramach subskrypcji beta. Funkcja wyszukiwania opartego na obrazach będzie jednak domyślnie dostępna na wszystkich platformach.
Wiele platform no-code, takich jak AppMaster, z niecierpliwością czeka na szeroką gamę aplikacji, które w najbliższej przyszłości przyniesie ulepszony ChatGPT. Tworzenie oprogramowania dla przedsiębiorstw bez kodu często wymaga tak zaawansowanej pomocy sztucznej inteligencji w celu zapewnienia doskonałej interaktywności i poprawy komfortu użytkownika.