26 сент. 2023 г.·1 мин

OpenAI расширяет функциональность ChatGPT за счет возможности устного общения и распознавания изображений

Технологический гигант OpenAI анонсировал новые интересные функции для своего чрезвычайно популярного ИИ-помощника ChatGPT.

OpenAI, известный игрок в области искусственного интеллекта, расширяет возможности своего уважаемого помощника ChatGPT. Первоначально разработанный как инструмент текстового поиска, ChatGPT теперь будет демонстрировать возможности обработки голоса и изображений, создавая более интерактивный опыт для своих пользователей.

С момента своего появления примерно девять месяцев назад ChatGPT стал большим явлением в технологическом спектре. Его глубоко ценят за его способность сочинять эссе, стихи и обобщать обширные тексты на основе простых текстовых подсказок. Однако теперь ИИ-помощник станет еще более привлекательным. Теперь он будет предоставлять пользователям свои уши, позволяя осуществлять голосовое взаимодействие.

Пользователи получат возможность вести голосовой диалог с помощью ChatGPT. Например, ассистента можно попросить рассказать импровизированную сказку на ночь, руководствуясь словесными подсказками пользователя. На помощь также могут быть направлены простые вопросы, а ответы будут даны на устном языке.

Кроме того, стали доступны функции поиска на основе изображений. Пользователи могут загрузить изображение и попросить ChatGPT идентифицировать или объяснить загруженный элемент или запросить указания для достижения конкретной цели.

Возможности голосового взаимодействия ChatGPT были доработаны с помощью превосходной модели преобразования текста в речь, которая может воспроизводить человеческие голоса из текста и короткого речевого образца. OpenAI сообщила, что сотрудничала с опытными актерами озвучивания для создания пяти эксклюзивных голосов. Система распознавания речи Whisper с открытым исходным кодом организации служит базовой технологией для преобразования речи в текст.

Spotify выступил в качестве партнера по запуску. Он представил ценную функцию для подкастеров, позволяющую им транскрибировать свои шоу с английского на испанский, французский или немецкий язык, сохраняя при этом исходный тон голоса. Тем не менее, OpenAI сообщает, что доступ к этой технологии не является универсальным. Для первоначального запуска он доступен только избранным подкастерам, включая Дакса Шепарда, Монику Пэдман, Лекса Фридмана, Билла Симмонса и Стивена Бартлетта.

В своем блоге OpenAI признала потенциальные риски, связанные с ее новой голосовой технологией, касающиеся вероятности мошенничества или введения в заблуждение мошенническими элементами. Таким образом, он старается не вызвать никаких разногласий по поводу его выпуска.

Презентация этих новых функций запланирована на следующие две недели. Первоначально они будут доступны подписчикам Plus и Enterprise. Чтобы воспользоваться голосовыми функциями, пользователям необходимо перейти к «настройкам» приложения, выбрать «новые функции», подписаться на голосовые разговоры, нажать кнопку наушников, расположенную в правом верхнем углу, и, наконец, выбрать предпочтительный голос.

Начнем с того, что только пользователи приложений ChatGPT для Android и iOS смогут участвовать в голосовых разговорах в рамках бета-тестирования по согласию. Однако функция поиска по изображениям станет доступна по умолчанию на всех платформах.

Многие платформы no-code, такие как AppMaster, с нетерпением ждут возможности увидеть широкий спектр приложений, которые этот улучшенный ChatGPT предоставит в ближайшем будущем. Создание корпоративного программного обеспечения без кода часто требует такой сложной помощи искусственного интеллекта для обеспечения превосходной интерактивности и улучшения пользовательского опыта.

Похожие новости