인공 지능 분야의 선두주자인 OpenAI 는 존경받는 비서 ChatGPT 의 기능을 확장하고 있습니다. 원래 텍스트 기반 검색 도구로 설계된 ChatGPT 이제 음성 및 이미지 처리 기능을 과시하여 사용자에게 더욱 상호 작용적인 경험을 제공합니다.
약 9개월 전에 소개된 이후 ChatGPT 기술 스펙트럼에서 큰 현상이 되었습니다. 에세이를 작성하고, 시를 만들고, 간단한 텍스트 단서에서 광범위한 텍스트를 요약하는 능력에 대해 깊은 평가를 받고 있습니다. 그러나 이제 AI 비서는 더욱 매력적으로 변할 예정입니다. 이제 사용자의 귀를 빌려 음성 상호 작용이 가능해집니다.
사용자는 ChatGPT 통해 음성 대화에 참여할 수 있는 기회를 얻게 됩니다. 예를 들어, 어시스턴트는 사용자의 구두 신호에 따라 즉석에서 취침 시간 이야기를 해설하도록 요청받을 수 있습니다. 간단한 질문도 지원팀에 전달할 수 있으며 답변은 음성으로 전달됩니다.
또한 이미지 기반 검색 기능도 제공됩니다. 사용자는 이미지를 업로드하고 ChatGPT 에 업로드된 항목을 식별 또는 설명하도록 요청하거나 특정 목표 달성을 위한 지침을 요청할 수 있습니다.
ChatGPT 의 음성 상호 작용 기능은 텍스트와 짧은 음성 샘플에서 인간과 같은 음성을 생성할 수 있는 우수한 텍스트 음성 변환 모델을 통해 미세 조정되었습니다. OpenAI 숙련된 성우들과 협업하여 5명의 독점 목소리를 생성했다고 밝혔습니다. 조직의 오픈 소스 Whisper 음성 인식 시스템은 음성을 텍스트로 변환하는 기본 기술 역할을 합니다.
흥미로운 개발 과정에서 Spotify가 출시 파트너로 참여했습니다. 이는 팟캐스터가 원래의 음성 톤을 유지하면서 자신의 프로그램을 영어에서 스페인어, 프랑스어 또는 독일어로 복사할 수 있도록 하는 귀중한 기능을 도입했습니다. 그럼에도 불구하고 OpenAI 이 기술에 대한 접근이 보편적이지 않다는 점을 공개합니다. 초기 출시에는 Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons 및 Steven Bartlett을 포함한 일부 팟캐스터만 사용할 수 있습니다.
블로그 게시물에서 OpenAI 악성 요소에 의한 사기 또는 허위 진술 가능성과 관련하여 새로운 음성 기술과 관련된 잠재적인 위험을 인정했습니다. 따라서 출시와 관련하여 어떠한 논란도 일으키지 않도록 주의를 기울이고 있습니다.
이러한 새로운 기능은 다음 주에 공개될 예정입니다. 처음에는 Plus 및 Enterprise 가입자가 액세스할 수 있습니다. 음성 기능을 이용하려면 사용자는 앱의 '설정'으로 이동하여 '새 기능'을 선택하고 음성 대화에 동의한 후 오른쪽 상단에 있는 헤드폰 버튼을 탭하고 마지막으로 선호하는 목소리.
우선 ChatGPT Android 및 iOS 앱 사용자만 사전 동의 베타 방식으로 음성 대화를 경험할 수 있습니다. 그러나 이미지 기반 검색 기능은 기본적으로 모든 플랫폼에서 사용할 수 있게 됩니다.
AppMaster 와 같은 많은 no-code 플랫폼은 가까운 미래에 이 향상된 ChatGPT 가 제공할 광범위한 애플리케이션을 간절히 기다리고 있습니다. 코드 없이 엔터프라이즈 소프트웨어를 구축하려면 뛰어난 상호작용성과 사용자 경험 향상을 위해 정교한 AI 지원이 필요한 경우가 많습니다.