Исследования16 марта 2026 г.

Глубокие нейросети научили RL-агентов паркуру с ростом производительности в 50 раз

Исследователи из Принстона и Варшавского университета обнаружили, что увеличение глубины нейросетей до 1024 слоёв радикально улучшает навыки ИИ-агентов.

Глубокие нейросети научили RL-агентов паркуру с ростом производительности в 50 раз

Совместное исследование учёных из Принстонского университета и Варшавского технологического университета показало, что радикальное увеличение глубины нейронных сетей — до 1024 слоёв вместо стандартных 2-5 — приводит к прорывному росту производительности агентов обучения с подкреплением (RL) от 2 до 50 раз в зависимости от задачи.

Учёные разработали алгоритм Contrastive RL (CRL), который обучает агентов различать, принадлежат ли действия успешным траекториям достижения цели. Система учится через самоконтроль без необходимости в человеческой разметке. Результаты оказались неожиданными: с увеличением глубины сети у агентов появлялись качественно новые навыки.

При 4 слоях агенты не могли выполнить даже базовые задачи, при 16 — научились ходить вертикально, а при 256 слоях начали демонстрировать «акробатические стратегии», включая перепрыгивание через стены. На самой сложной задаче прирост производительности превысил 1000 раз по сравнению со стандартными сетями.

Для успеха потребовалось сочетание трёх архитектурных компонентов: остаточных соединений (residual connections), методов нормализации и специализированных функций активации. Исследование ставит под сомнение давнее убеждение в RL-сообществе о том, что мелкие сети достаточны для решения задач управления, и открывает путь к созданию более ловких и адаптивных роботов.

Попробуйте нейросети в MashaGPT

GPT-5, Claude, Gemini, генерация изображений и видео — всё в одном месте

Попробовать бесплатно
Источник:The Decoder
#нейросети#обучение с подкреплением#паркур#Принстон#робототехника