07 дек. 2023 г.·2 мин

Представляем Gemini: сложную мультимодальную модель искусственного интеллекта Google

Google запускает свою усовершенствованную модель искусственного интеллекта Gemini. Эта модель может воспринимать различные форматы данных, включая текст, код, аудио, изображения и видео.

Сделав шаг вперед в области искусственного интеллекта, Google представила Gemini, свою новейшую модель искусственного интеллекта. Эта инновационная модель, в отличие от традиционных, способна с самого начала интерпретировать гетерогенные форматы данных — текст, код, аудио, изображения и видео.

Обычно мультимодальные модели разрабатываются путем отдельного обучения различных компонентов для разных форматов информации и их последующей интеграции. Тем не менее, отклоняясь от этой стандартной практики, Близнецы используют другой подход. Модель с самого начала обучалась на различных форматах данных и дорабатывалась с помощью дополнительных мультимодальных данных. Эта методология позволяет Gemini понимать и анализировать различные типы данных, превосходя текущие мультимодальные модели. Подчеркивая сильные стороны Gemini, Sundar Pichai, генеральный директор Google и Alphabet, и Demis Hassabis, генеральный директор и соучредитель Google DeepMind, поделились, что способности модели находятся на одном уровне с лучшими практически во всех областях.

Примечательно, что Близнецы обладают сильными рассуждениями, что позволяет им воспринимать сложную письменную и визуальную информацию. Благодаря этому он умеет извлекать труднодоступные знания из огромных массивов данных. Единственным примером этого является его способность анализировать сотни тысяч документов в поисках ценной информации, ведущей к прорывам во многих областях. Более того, мультимодальные аспекты Gemini делают его особенно эффективным при расшифровке сложных вопросов по таким предметам, как математика и физика.

Первоначальный Gemini 1.0 доступен в трех вариантах: Ultra, Pro и Nano, каждый из которых соответствует разным размерам. По данным Google, в ходе предварительного сравнительного тестирования Gemini Ultra превзошла 30 из 32 широко используемых академических тестов при разработке моделей и исследованиях. Примечательно, что Gemini Ultra также является первой моделью, превзошедшей экспертов-людей. Это было измерено с помощью массового многозадачного понимания языка (MMLU), охватывающего 57 дисциплин, от математики и физики до истории, права, медицины и этики.

Gemini Pro теперь интегрирован с Bard, что представляет собой самое существенное обновление Bard с момента его выпуска. Стоит отметить, что Pixel 8 Pro также был оптимизирован для использования возможностей Gemini Nano для реализации таких функций, как подведение итогов в приложении Recorder и умный ответ на клавиатуре Google.

Ожидается, что в ближайшие месяцы Gemini будет включен в другие продукты Google, такие как Search, Ads, Chrome и Duet AI. Начиная с 13 декабря разработчикам будет предоставлен доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vortex AI.

В дополнение к этому, Близнецы могут понимать несколько распространенных языков программирования, включая Python, Java, C++ и Go. По словам Пичаи и Хассабиса, хорошее знание языка Близнецов и способность рассуждать о сложной информации делают его базовой моделью высшего уровня для кодирования во всем мире.

Google также привлекла Gemini для разработки усовершенствованной системы генерации кода, известной как AlphaCode 2. Эта система, являющаяся обновлением первой версии, выпущенной два года назад, может решать задачи конкурентного программирования, включающие сложную математику и теоретическую информатику.

В дополнение к череде анонсов, запуск новой системы TPU под названием Cloud TPU v5p, предназначенной для обучения новейших моделей искусственного интеллекта, еще больше дополняет запуск Gemini. Этот TPU следующего поколения ускорит разработку Gemini и поможет разработчикам и корпоративным клиентам быстрее обучать крупномасштабные генеративные модели искусственного интеллекта. Это обеспечит доставку новых услуг и возможностей клиентам в более короткие сроки.

Google подчеркнул свою приверженность принципам ответственного ИИ во время разработки Gemini. Он проводил исследования в таких областях потенциального риска, как киберпреступления, убеждение и автономия. Классификаторы безопасности также были созданы для выявления, маркировки и разделения контента, содержащего насилие или негативные стереотипы.

Запуск Gemini знаменует собой важнейшую веху в эволюции искусственного интеллекта и открывает новую эру в Google. В настоящее время предпринимаются усилия по расширению функциональности Gemini на будущие версии, улучшения в планировании и памяти, а также увеличение контекстного окна для обработки большего количества информации обещают лучшие ответы в будущем.

По мере расширения горизонтов области no-code и low-code такие платформы, как AppMaster , позволяют разработчикам и бизнес-профессионалам создавать масштабируемые и мощные приложения, дополняющие достижения искусственного интеллекта, такие как Gemini. Предлагая впечатляющий список функций, AppMaster выделяется как универсальное и экономичное решение в быстро развивающейся среде разработки приложений.

Похожие новости