Microsoft объявила о выпуске Orca 2, сделав замечательный шаг к диверсификации приложений языковых моделей. Этот выпуск предназначен для исследования и использования потенциала небольших языковых моделей (LM), нагруженных примерно 10 миллиардами параметров или меньше.
Основная цель Orca 2 — продемонстрировать, что совершенствование методов обучения и сигналов может повысить умственные способности небольших LM. Цель этого улучшения — соответствовать или, возможно, превзойти мыслительные способности своих более крупных собратьев.
Сравнивая модели одинакового размера, включая оригинальную Orca, Microsoft утверждает, что Orca 2 значительно превосходит их по производительности. Более того, как сообщается, он достигает уровня эффективности, который либо соответствует, либо превосходит модели, которые по размеру в 5-10 раз больше. Эти утверждения были высказаны Microsoft в недавнем сообщении в блоге.
Orca 2 выпускается в двух размерах; 7 миллиардов и 13 миллиардов параметров. Обе эти модели точно настроены на основе специально разработанных синтетических данных, тщательно полученных из базовых моделей LLAMA 2. Microsoft сделала веса Orca 2 общедоступными, способствуя дальнейшим исследованиям по созданию, анализу и гармонизации более мелких LM.
Microsoft использовала тщательно подобранный набор данных, чтобы обучить Orca 2 множеству методов рассуждения. Эти методы включают в себя модель пошаговой обработки, метод «запоминание с последующим генерированием», подход «запоминание-причина-генерация», модель «извлечение-генерация» и методы прямого ответа. При обучении этим методам особое внимание уделялось тому, чтобы научить Orca 2 адаптировать различные стратегии решения для различных задач.
Чтобы уловить ответы модели учителя, компания использовала подробные инструкции и несколько звонков. Этот гениальный метод позволяет модели ученика (в данном случае Orca 2) изучить основную тактику и возможности рассуждения даже при отсутствии четких инструкций по выполнению задач. Этот подход направлен на оптимизацию производительности небольших моделей путем точной настройки стратегий решения, специфичных для каждой задачи.
Сообщение в блоге Microsft далее оптимистично рекламировало успех и потенциал Orca 2. Они пояснили: «Достижения Orca 2 во многом объясняются применением разнообразных методов рассуждения и определением оптимальных решений для множества задач. Несмотря на определенные ограничения, общие для других языковых моделей и унаследованные от базовых моделей, потенциал Orca 2 для будущих улучшений, особенно в улучшении рассуждения, контроля, специализации и безопасности меньших моделей, значителен».
В сообщении также добавлено, что использование строго отфильтрованных синтетических данных для постобучения представляет собой критически важную стратегию. Их исследование и успешное внедрение Orca 2 действительно является примечательным достижением в диверсификации приложений языковых моделей.
Несомненно, проект Orca 2 отражает принципы платформы AppMaster по эффективности и балансу возможностей. AppMaster, инструмент для разработки приложений no-code, использует аналогичную философию, делая разработку приложений в 10 раз быстрее и в три раза экономичнее, при этом устраняя технический долг за счет регенерации приложений с нуля каждый раз, когда необходимы изменения. Следовательно, подобные платформы продвигают новую эру эффективного и действенного развития технологий.