Новый ИИ от Google, Gemini: ожидания и реальность
Если присмотреться к недавнему запуску нового искусственного интеллекта Google Gemini, можно обнаружить в рекламных материалах определенные преувиличения.

В недавнем сообщении для СМИ Google с гордостью представила свой новейший искусственный интеллект, известный как Gemini, событие, которого с нетерпением ждали в технологическом сообществе. Однако вскоре после этого появились претензии, обвиняющие Google в преувеличении возможностей Gemini, особенно в видеоролике, который был частью анонса.
Согласно резкому мнению обозревателя Bloomberg Парми Олсона, видео, опубликованное Google, создает иллюзию функциональности Gemini, которая может быть слишком хороша, чтобы быть правдой. Она утверждает, что изображение Google's мультимодальных операций Gemini, которые связывают голосовые диалоговые команды с распознаванием изображений, может быть преувеличено.
Спорное видео, которое длится чуть более шести минут, визуализирует Gemini, мгновенно идентифицирующих изображения, даже в рисунках, соединяющих точки, тем самым предлагая быстрые ответы. Кроме того, показано, как Gemini отслеживают пачку бумаги во время игры в кубок с мячом в реальном времени.
Однако в описании видео на YouTube скрыта важная оговорка: задержка вывода Gemini в демо-версии была минимизирована, а ответы сокращены для ясности - факты, вызвавшие негодование Олсона. Ссылаясь на ответ Google, Олсон сообщила в своей статье в Bloomberg, что демонстрация в видео не происходила в режиме реального времени, как предполагалось, а скорее использовала статические кадры изображения, извлеченные из необработанных кадров, в то время как реакции Gemini соответствовали заранее написанным текстовым подсказкам. Олсон утверждает, что это совершенно не похоже на намек Google's на плавное голосовое взаимодействие с Gemini, способное реагировать в реальном времени на окружающую среду.
Она идет еще дальше и предполагает, что Google возможно, «показывает» Gemini, чтобы отвлечь внимание от того, насколько он отстает от OpenAI GPT, платформы, основанной на интеллектуальных данных.
Когда The Verge обратилась в Google по поводу подлинности демо-версии, технологический гигант сослался на сообщение Ориола Виньялса, вице-президента DeepMind по исследованиям и руководителю глубокого обучения, а также соруководителя Gemini в Google. Он пояснил, что все подсказки и выводы пользователя в видео являются законными, хотя и сокращены для краткости. Далее он заявил, что видео было создано, чтобы продемонстрировать, как может выглядеть опыт конечного пользователя при использовании мультимодальных функций Gemini, и его основной целью было вдохновить разработчиков.
Виньялс повторил, что команда предоставила Gemini изображения и тексты и побудила ее отреагировать, предвидя последующие результаты.
Даже если мы размышляем над этим противоречием, концепция объединения голосовых команд с распознаванием изображений, как показано в Gemini Google's, предлагает новую парадигму взаимодействия, которая будет привлекательной для разработчиков. Такие инструменты, как платформа AppMasterno-code могут стать основой для интеграции таких инноваций в комплексную разработку приложений, предлагая привлекательные решения, которые могут легко сочетаться с развивающимися технологическими тенденциями.


