Учёные NC State изобрели «заморозку нейронов» для защиты ИИ от опасных ответов без потери качества

Исследователи из Университета Северной Каролины разработали технику замораживания критических нейронов в языковых моделях, которая сохраняет безопасность ИИ при дообучении на новых задачах. Метод будет представлен на конференции ICLR 2026 в Рио-де-Жанейро.

Исследователи из Университета штата Северная Каролина (NC State) совершили важный прорыв в области безопасности больших языковых моделей. Команда под руководством доцента Юнг-Юн Ким и аспиранта Цзяньвэй Ли обнаружила в нейросетях специфические нейроны, которые отвечают за определение безопасности ответа. Замораживание этих нейронов при дообучении модели позволяет сохранить встроенные механизмы защиты, не жертвуя при этом производительностью на новых задачах.

В основе метода лежит так называемая «Гипотеза поверхностного выравнивания безопасности» (Superficial Safety Alignment Hypothesis, SSAH). Согласно ей, современные языковые модели обрабатывают запросы пользователей бинарно — безопасный или небезопасный — и принимают это решение в самом начале генерации ответа. Такой подход делает защитные механизмы хрупкими: злоумышленники могут обойти их с помощью специально составленных промптов, так называемых jailbreak-атак.

Исследователи классифицировали все компоненты нейросети на четыре типа: критические для безопасности (Safety Critical Units), критические для полезности (Utility Critical Units), комплексные (Complex Units) и избыточные (Redundant Units). Ключевое открытие состоит в том, что именно Safety Critical Units определяют, выполнит ли модель потенциально опасный запрос или откажется от него. Заморозив эти конкретные нейроны при файн-тюнинге, можно адаптировать модель к новым доменам, не разрушая её защитные барьеры.

Проблема, которую решает данная техника, чрезвычайно актуальна для индустрии. Когда компании дообучают базовые модели вроде GPT-5.4 или Claude на своих корпоративных данных, встроенные механизмы безопасности часто ослабевают — этот эффект известен как «налог на выравнивание» (alignment tax). Бизнесу приходится выбирать между специализацией модели и её безопасностью. Метод NC State позволяет минимизировать этот компромисс.

Работа будет представлена на Четырнадцатой международной конференции по обучению представлениям (ICLR 2026), которая пройдёт 23–27 апреля в Рио-де-Жанейро, Бразилия. ICLR является одной из самых престижных площадок в области машинного обучения, и принятие статьи подтверждает значимость результатов. Исследование уже привлекло внимание крупных ИИ-лабораторий, работающих над безопасностью моделей.

Данная работа вписывается в глобальный тренд на усиление контроля над поведением ИИ-систем. На фоне растущих регуляторных требований — от AI Act в Евросоюзе до новых федеральных инициатив в США — техника замораживания нейронов может стать стандартным инструментом при дообучении коммерческих моделей. Для разработчиков это означает возможность создавать специализированные ИИ-решения, не опасаясь непредвиденных сбоев в безопасности.

Учёные NC State изобрели «заморозку нейронов» для защиты ИИ от опасных ответов без потери качества

Читайте также

Shopify запустила агентные витрины: ИИ-боты покупают товары прямо в ChatGPT и Perplexity

OpenSpace запустила платформу визуального ИИ для строек: Spatial AI определяет местоположение дефектов без оборудования

ИИ на страже дикой природы: камеры-ловушки, дроны и акустические сенсоры спасают исчезающие виды

Исследование Anthropic: ИИ пока не повлиял на рынок труда

Китай субсидирует «компании одного человека» на базе ИИ-агентов

Samsung переводит все заводы на ИИ-управление к 2030 году: автоматизация логистики уходит на уровень данных