Учёные MIT удвоили скорость обучения больших языковых моделей новым методом

Исследователи MIT разработали метод TLT, который ускоряет обучение LLM на 70–210% без потери точности. Технология использует маленькую вспомогательную модель для предсказания ответов большой, что сокращает затраты энергии и времени.

Группа учёных из Массачусетского технологического института (MIT) представила новый метод обучения больших языковых моделей, способный удвоить скорость тренировки без потери точности. Разработка под названием TLT (Taming the Long Tail) решает одну из ключевых проблем современного машинного обучения — огромные затраты вычислительных ресурсов при обучении с подкреплением.

Основная идея метода заключается в использовании небольшой вспомогательной модели, которая предсказывает ответы основной большой модели. Крупная модель затем лишь проверяет эти предсказания параллельно, а не генерирует каждый ответ последовательно с нуля. Это позволяет устранить узкое место — процесс генерации множества ответов (rollout), который занимает до 85% времени обучения.

Система состоит из двух компонентов: адаптивного тренера-черновика, который использует простаивающее процессорное время для непрерывного обучения малой модели, и адаптивного движка генерации, который управляет спекулятивным декодированием и подбирает оптимальную стратегию для каждого пакета данных.

При тестировании на нескольких моделях рассуждения метод продемонстрировал ускорение от 70 до 210 процентов, полностью сохраняя точность каждой модели. Это означает, что компании смогут значительно сократить расходы на обучение ИИ и снизить энергопотребление дата-центров.

Ведущие авторы работы — постдок MIT Цинхао Ху и аспиранты EECS Шан Ян и Цзюньсянь Го. Старший автор — Сун Хан, адъюнкт-профессор EECS в MIT. В исследовании также участвовали специалисты из NVIDIA, ETH Zurich и MIT-IBM Watson AI Lab.

Метод может применяться для широкого спектра задач — от прогнозирования финансовых трендов до обнаружения рисков в энергосетях. По словам исследователей, фактическое обновление весов модели занимает ничтожную долю времени по сравнению с генерацией обучающих примеров, и именно этот дисбаланс удалось преодолеть.

Попробуйте нейросети в MashaGPT

GPT-5, Claude, Gemini, генерация изображений и видео — всё в одном месте

Попробовать бесплатно

Источник:MIT News