Num avanço no campo da inteligência artificial, Google apresentou o Gemini, seu mais recente modelo de IA. Este modelo inovador, diferentemente dos tradicionais, é capaz de interpretar formatos de dados heterogêneos – texto, código, áudio, imagem e vídeo, desde o início.

Normalmente, os modelos multimodais são desenvolvidos treinando separadamente diferentes componentes para diversos formatos de informação e depois integrando-os. No entanto, afastando-se desta prática padrão, Gemini utiliza uma abordagem diferente. O modelo foi treinado em vários formatos de dados desde o início e ajustado com dados multimodais adicionais. Esta metodologia facilita ao Gemini compreender e raciocinar sobre vários tipos de dados, superando os modelos multimodais atuais. Destacando os pontos fortes da Gemini, Sundar Pichai, CEO do Google e Alphabet, e Demis Hassabis, CEO e cofundador do Google DeepMind, compartilharam que as habilidades do modelo estão no mesmo nível das melhores em quase todos os domínios.

Notavelmente, Gêmeos possui uma capacidade de raciocínio robusta, permitindo-lhe perceber informações escritas e visuais complexas. Graças a isso, é especialista em extrair conhecimento difícil de encontrar de vastos conjuntos de dados. Um exemplo solitário disso é a sua capacidade de examinar centenas de milhares de documentos em busca de informações valiosas que levem a avanços em muitos campos. Além disso, os aspectos multimodais do Gemini tornam-no particularmente eficaz na decifração de questões complexas em disciplinas como matemática e física.

O Gemini 1.0 inicial está disponível em três variantes – Ultra, Pro e Nano, cada uma atendendo a diferentes requisitos de tamanho. De acordo com Google, o Gemini Ultra superou 30 dos 32 benchmarks acadêmicos comumente usados ​​no desenvolvimento de modelos e pesquisas durante o benchmarking preliminar. Notavelmente, o Gemini Ultra é também o primeiro modelo a superar os especialistas humanos. Isso foi avaliado usando a compreensão massiva de linguagem multitarefa (MMLU), abrangendo 57 disciplinas que vão desde matemática e física até história, direito, medicina e ética.

Gemini Pro agora está integrado ao Bard, representando a atualização mais substancial do Bard desde seu lançamento. É importante notar que o Pixel 8 Pro também foi otimizado para aproveitar os recursos do Gemini Nano para potencializar recursos como Resumir no aplicativo Gravador e Resposta Inteligente no teclado do Google.

Nos próximos meses, espera-se que o Gemini seja incorporado a mais produtos do Google, como Search, Ads, Chrome e Duet AI. A partir de 13 de dezembro, os desenvolvedores terão acesso ao Gemini Pro por meio da API Gemini no Google AI Studio ou no Google Cloud Vortex AI.

Além disso, Gemini pode compreender várias linguagens de programação predominantes, incluindo Python, Java, C++ e Go. De acordo com Pichai e Hassabis, a proficiência na linguagem sonora e a capacidade de raciocínio do Gemini sobre informações complexas fazem dele um modelo básico de primeira linha para codificação em todo o mundo.

Google também contratou Gemini para projetar um sistema avançado de geração de código conhecido como AlphaCode 2. Este sistema, uma atualização da primeira versão lançada há dois anos, pode resolver problemas de programação competitiva envolvendo matemática complexa e ciência da computação teórica.

Somando-se à série de anúncios, o lançamento de um novo sistema TPU chamado Cloud TPU v5p, projetado para treinar modelos de IA de última geração, complementa ainda mais o lançamento do Gemini. Esta TPU de próxima geração acelerará o desenvolvimento do Gemini e ajudará desenvolvedores e clientes corporativos a treinar modelos de IA generativos em grande escala com mais rapidez. Isto garantirá que os serviços e capacidades mais recentes cheguem aos clientes num período de tempo mais curto.

Google enfatizou sua adesão aos Princípios de IA Responsável durante o desenvolvimento do Gemini. Realizou pesquisas em áreas de risco potencial, como crimes cibernéticos, persuasão e autonomia. Classificadores de segurança também foram criados para identificar, rotular e segregar conteúdo que contenha violência ou estereótipos negativos.

O lançamento do Gemini representa um marco crítico na evolução da IA ​​e inicia uma nova era no Google. Com os esforços atualmente em andamento para estender as funcionalidades do Gemini para versões futuras, melhorias no planejamento e avanços na memória e aumento da janela de contexto para processamento de mais informações prometem melhores respostas no futuro.

