AWS и Cerebras объединились для рекордно быстрого ИИ-инференса в облаке

Amazon Web Services и Cerebras Systems представили совместное решение для сверхбыстрого ИИ-инференса на базе Amazon Bedrock. Технология разделения нагрузки между чипами Trainium и CS-3 обещает пятикратное ускорение генерации токенов.

Amazon Web Services и Cerebras Systems объявили о стратегическом партнёрстве, которое должно установить новый стандарт скорости ИИ-инференса в облаке. Решение будет доступно через Amazon Bedrock в ближайшие месяцы и объединит серверы на базе AWS Trainium, системы Cerebras CS-3 и высокоскоростную сеть Elastic Fabric Adapter.

Ключевая инновация — технология «разделённого инференса» (inference disaggregation). Вместо того чтобы один чип выполнял весь цикл генерации, задача разбивается на два этапа: AWS Trainium оптимизирован для фазы prefill (обработка входного запроса), а Cerebras CS-3 — для фазы decode (генерация ответа). Каждая система делает то, что умеет лучше всего.

Cerebras CS-3 — крупнейший в мире ИИ-чип, который в 56 раз превышает размер самого большого GPU. Все веса модели хранятся прямо на чипе в сверхбыстрой SRAM-памяти, что обеспечивает в тысячи раз большую пропускную способность памяти по сравнению с GPU. Скорость генерации достигает 3000 токенов в секунду — против сотен токенов на традиционных GPU.

«Инференс — это то место, где ИИ приносит реальную ценность клиентам, но скорость остаётся критическим узким местом», — заявил Дэвид Браун, вице-президент AWS по вычислениям и ML-сервисам. По его словам, разделение нагрузки между Trainium и CS-3 позволяет каждой системе работать на пике эффективности.

Эндрю Фельдман, основатель и CEO Cerebras, подчеркнул масштаб партнёрства: «Каждое предприятие в мире сможет получить молниеносный инференс в привычной среде AWS». Решение обещает пятикратное увеличение ёмкости высокоскоростной генерации токенов в том же аппаратном объёме.

В течение этого года через Amazon Bedrock станут доступны ведущие open-source языковые модели и модели Amazon Nova, работающие на оборудовании Cerebras. Партнёрство знаменует важный сдвиг в индустрии: будущее ИИ-инференса — не в универсальных чипах, а в специализированных архитектурах, где каждый компонент решает свою задачу максимально эффективно.

Попробуйте нейросети в MashaGPT

GPT-5, Claude, Gemini, генерация изображений и видео — всё в одном месте

Попробовать бесплатно

Источник:Cerebras