W niedawnym ogłoszeniu medialnym Google z dumą zaprezentowało swoją najnowszą sztuczną inteligencję znaną jako Gemini – wydarzenie, które było długo oczekiwane w społeczności technologicznej. Jednak wkrótce potem pojawiły się twierdzenia, w których oskarżano Google o wyolbrzymianie możliwości Gemini, szczególnie w wyświetlanym filmie będącym częścią ogłoszenia.
Według zjadliwej opinii felietonisty Bloomberga, Parmy'ego Olsona, wideo opublikowane przez Google stwarza iluzję funkcjonalności Gemini, która może być zbyt piękna, aby mogła być prawdziwa. Jej zdaniem przedstawiony Google's obraz multimodalnych operacji Gemini, które łączą polecenia mówione z rozpoznawaniem obrazu, może być przesadzony.
Kontrowersyjny film, który trwa nieco ponad sześć minut, przedstawia Bliźnięta natychmiast identyfikujące obrazy, nawet na rysunkach typu „połącz kropki”, co pozwala na szybkie reagowanie. Dodatkowo Gemini śledzi zwitek papieru podczas gry w puchar i piłkę w czasie rzeczywistym.
Jednak w opisie filmu na YouTube kryje się ważne zastrzeżenie: w wersji demonstracyjnej zminimalizowano opóźnienie wyjściowe Gemini, a dla przejrzystości odpowiedzi skrócono – fakty, które wzbudziły oburzenie Olsona. Cytując odpowiedź Google, Olson poinformowała w swoim artykule w Bloomberg, że demonstracja w filmie nie była prowadzona w czasie rzeczywistym, jak sugerowano, ale raczej wykorzystywała statyczne klatki obrazu wyodrębnione z surowego materiału filmowego, podczas gdy reakcje Gemini odpowiadały wcześniej zapisanym podpowiedziom tekstowym. Olson twierdzi, że znacznie różni się to od zapewnień Google's dotyczących płynnej interakcji głosowej z Gemini, zdolnej do reagowania w czasie rzeczywistym na otoczenie.
Idzie jeszcze dalej, sugerując, że Google może „popisywać się” Gemini, aby odwrócić uwagę od tego, jak bardzo pozostaje w tyle za GPT OpenAI, platformą opartą na inteligencji.
Kiedy The Verge zwrócił się do Google w sprawie autentyczności wersji demonstracyjnej, gigant technologiczny odniósł się do postu Oriola Vinyalsa, który jest wiceprezesem ds. badań i głębokiego uczenia się w DeepMind, a także współprowadzącym Gemini w Google. Wyjaśnił, że wszystkie monity i dane wyjściowe użytkownika w filmie są zgodne z prawem, chociaż zostały skrócone ze względu na zwięzłość. Następnie stwierdził, że film powstał, aby pokazać, jak mogą wyglądać doświadczenia użytkownika końcowego podczas korzystania z multimodalnych funkcji Gemini, a jego głównym celem było zainspirowanie programistów.
Vinyals powtórzył, że zespół dostarczył Gemini obrazy i teksty oraz skłonił go do odpowiedzi, przewidując dalsze wyniki.
Nawet gdy zastanawiamy się nad tą kontrowersją, koncepcja łączenia poleceń mówionych z rozpoznawaniem obrazu, jak zilustrowano w Google's Gemini, oferuje nowy paradygmat interakcji, który będzie kuszący dla programistów. Narzędzia takie jak platforma no-code AppMaster mogą stanowić podstawę do integracji takich innowacji w kompleksowym tworzeniu aplikacji, oferując atrakcyjne rozwiązania, które płynnie dostosowują się do zmieniających się trendów technologicznych.