модели18 марта 2026 г.

OLMo Hybrid: открытая модель от Allen Institute, которая учится вдвое быстрее трансформеров

Allen Institute for AI выпустил OLMo Hybrid — 7B-модель с гибридной архитектурой, сочетающей трансформеры и линейные рекуррентные сети. Модель достигает тех же результатов, что и OLMo 3, но использует вдвое меньше данных для обучения.

OLMo Hybrid: открытая модель от Allen Institute, которая учится вдвое быстрее трансформеров

Allen Institute for AI (Ai2) представил OLMo Hybrid — новую открытую языковую модель с 7 миллиардами параметров, которая объединяет классическую архитектуру трансформеров с линейными рекуррентными сетями Gated DeltaNet. Модель выпущена под лицензией Apache 2.0, что позволяет свободно использовать её в коммерческих проектах.

Главная особенность OLMo Hybrid — гибридная архитектура по схеме 3:1. Три слоя DeltaNet чередуются с одним слоем классического многоголового внимания (multihead attention). Такой подход заменяет 75% стандартных attention-слоёв на более эффективные рекуррентные блоки, сохраняя при этом способность модели к точному извлечению информации из контекста.

Результаты впечатляют: на бенчмарке MMLU модель достигает той же точности, что и OLMo 3, но при использовании на 49% меньше обучающих токенов — то есть вдвое выше эффективность обучения. На задачах с длинным контекстом (64K токенов) OLMo Hybrid набирает 85.0 баллов на бенчмарке RULER против 70.9 у OLMo 3 7B. Скорость инференса на длинных контекстах выше на 75%.

Модель обучена на 6 триллионах токенов с использованием улучшенного датасета от OLMo 3 32B. Обучение проводилось на 512 GPU — сначала на NVIDIA H100, затем с переходом на NVIDIA HGX B200. Наибольший прирост производительности наблюдается в STEM-задачах, медицинских тестах (MedQA) и генерации кода (MBPP).

Исследователи Ai2 доказали, что гибридные архитектуры фундаментально более выразительны, чем чистые трансформеры или чистые линейные RNN по отдельности. Это преимущество в выразительности напрямую транслируется в более эффективное масштабирование при предобучении. Все веса модели, технический отчёт и данные доступны на HuggingFace, что делает OLMo Hybrid одним из самых открытых проектов в индустрии AI.

Попробуйте нейросети в MashaGPT

GPT-5, Claude, Gemini, генерация изображений и видео — всё в одном месте

Попробовать бесплатно
Источник:Allen Institute for AI