Компания Microsoft представила Orca 2, две малые языковые модели, способные конкурировать или даже превосходить языковые модели, в пять-десять раз большие по размеру, включая Llama-2 Chat-70B, в задачах сложного рассуждения в условиях нулевого выстрела (zero-shot). Модели имеют размеры 7 и 13 миллиардов параметров и основаны на работе предыдущей модели Orca 13B, показавшей впечатляющие способности к рассуждению.
Исследователи Microsoft отметили, что улучшенные методы обучения позволяют меньшим моделям достигать уровня рассуждений, характерного для более крупных моделей. Обе новые модели были открыты для дальнейших исследований с целью разработки и оценки малых моделей, которые могут быть эффективными, как и их крупные аналоги.
В процессе обучения Microsoft Research сконцентрировалась на обучении малых моделей использованию различных стратегий решения задач. Это отличается от традиционного метода имитационного обучения, где малые модели копируют поведение более мощных. Вместо этого они обучаются выбирать наиболее эффективные стратегии решения для разных задач.
При тестировании на 15 разнообразных задачах Orca 2 показала результаты, соответствующие или превосходящие результаты моделей в пять-десять раз больших по размеру. Особенно стоит отметить, что в задачах школьной математики GSM8K только модель WizardLM-70B показала лучшие результаты, чем Orca и Llama.
Исследователи Microsoft подчеркнули, что, несмотря на ограничения, потенциал Orca 2 в будущем очевиден, особенно в улучшении рассуждений, специализации, контроля и безопасности малых моделей. В своих исследованиях они используют специально отфильтрованные синтетические данные для послетренировочного обучения, что является ключевой стратегией в этих улучшениях.
С выпуском моделей Orca 2 и продолжением исследований в этой области можно ожидать появления большего количества малых, но высокопроизводительных языковых моделей в ближайшем будущем.