최근 언론 발표에서 Google 기술 커뮤니티에서 많은 기대를 모았던 행사인 Gemini로 알려진 최신 인공 지능을 자랑스럽게 공개했습니다. 그러나 얼마 지나지 않아 특히 발표의 일부인 디스플레이 비디오에서 Google Gemini의 기능을 과장했다고 비난하는 주장이 나타났습니다.
Bloomberg 칼럼니스트 Parmy Olson의 신랄한 의견에 따르면 Google 이 공개한 동영상은 사실이 되기에는 너무 좋을 수도 있는 Gemini의 기능에 대한 환상을 만들어냅니다. 그녀는 음성 대화 명령과 이미지 인식을 연결하는 Gemini의 다중 모드 작업에 대한 Google's 묘사가 과장될 수 있다고 주장합니다.
6분 남짓 분량의 논란이 된 영상은 점을 잇는 그림에서도 제미니가 이미지를 즉시 식별하는 모습을 시각화해 즉각적인 반응을 보이고 있다. 또한 Gemini는 실시간 컵 앤 볼 게임 중에 종이 뭉치를 추적하는 모습을 보여줍니다.
그러나 YouTube의 동영상 설명에는 중요한 경고가 숨겨져 있습니다. 데모에서 Gemini의 출력 대기 시간이 최소화되었고 명확성을 위해 응답이 단축되었습니다. 이는 Olson의 분노를 불러일으켰습니다. Google 의 답변을 인용하여 Olson은 Bloomberg 기사에서 비디오의 데모가 암시된 것처럼 실시간이 아니라 원시 영상에서 추출한 정적 이미지 프레임을 사용한 반면 Gemini의 반응은 미리 작성된 텍스트 프롬프트에 해당한다고 보고했습니다. Olson은 이것이 환경에 실시간으로 반응할 수 있는 Gemini와의 원활한 음성 상호 작용에 대한 Google's 암시와는 상당히 다르다고 주장합니다.
그녀는 더 나아가 Google 지능 기반 플랫폼인 OpenAI의 GPT보다 뒤처지는 방식에 대한 관심을 돌리기 위해 Gemini와 함께 '쇼보트'를 할 수도 있다고 제안합니다.
The Verge 데모의 진위 여부를 문의하기 위해 Google 에 접근했을 때, 거대 기술 기업은 DeepMind의 연구 및 딥 러닝 담당 부사장이자 Google Gemini의 공동 리더인 Oriol Vinyals의 게시물을 참조했습니다. 그는 간략하게 표현하기는 하지만 비디오의 모든 사용자 메시지와 출력이 합법적임을 분명히 밝혔습니다. 그는 계속해서 Gemini의 다중 모드 기능을 사용할 때 최종 사용자 경험이 어떤 모습일 수 있는지 보여주기 위해 비디오가 제작되었으며 주요 목표는 개발자에게 영감을 주는 것이라고 밝혔습니다.
Vinyals는 팀이 Gemini에 이미지와 텍스트를 제공했으며 후속 결과를 예상하여 대응하도록 유도했다고 반복했습니다.
이러한 논란을 곰곰이 생각하는 와중에도 Google's Gemini에서 볼 수 있듯이 음성 명령과 이미지 인식을 결합하는 개념은 개발자에게 매력적인 상호 작용의 새로운 패러다임을 제시합니다. AppMaster 의 no-code 플랫폼과 같은 도구는 이러한 혁신을 포괄적인 애플리케이션 개발에 통합하기 위한 기반을 제공하여 진화하는 기술 트렌드와 원활하게 맞물릴 수 있는 강력한 솔루션을 제공할 수 있습니다.