Исследователи из Университета штата Северная Каролина (NC State) совершили важный прорыв в области безопасности больших языковых моделей. Команда под руководством доцента Юнг-Юн Ким и аспиранта Цзяньвэй Ли обнаружила в нейросетях специфические нейроны, которые отвечают за определение безопасности ответа. Замораживание этих нейронов при дообучении модели позволяет сохранить встроенные механизмы защиты, не жертвуя при этом производительностью на новых задачах.
В основе метода лежит так называемая «Гипотеза поверхностного выравнивания безопасности» (Superficial Safety Alignment Hypothesis, SSAH). Согласно ей, современные языковые модели обрабатывают запросы пользователей бинарно — безопасный или небезопасный — и принимают это решение в самом начале генерации ответа. Такой подход делает защитные механизмы хрупкими: злоумышленники могут обойти их с помощью специально составленных промптов, так называемых jailbreak-атак.
Исследователи классифицировали все компоненты нейросети на четыре типа: критические для безопасности (Safety Critical Units), критические для полезности (Utility Critical Units), комплексные (Complex Units) и избыточные (Redundant Units). Ключевое открытие состоит в том, что именно Safety Critical Units определяют, выполнит ли модель потенциально опасный запрос или откажется от него. Заморозив эти конкретные нейроны при файн-тюнинге, можно адаптировать модель к новым доменам, не разрушая её защитные барьеры.
Проблема, которую решает данная техника, чрезвычайно актуальна для индустрии. Когда компании дообучают базовые модели вроде GPT-5.4 или Claude на своих корпоративных данных, встроенные механизмы безопасности часто ослабевают — этот эффект известен как «налог на выравнивание» (alignment tax). Бизнесу приходится выбирать между специализацией модели и её безопасностью. Метод NC State позволяет минимизировать этот компромисс.
Работа будет представлена на Четырнадцатой международной конференции по обучению представлениям (ICLR 2026), которая пройдёт 23–27 апреля в Рио-де-Жанейро, Бразилия. ICLR является одной из самых престижных площадок в области машинного обучения, и принятие статьи подтверждает значимость результатов. Исследование уже привлекло внимание крупных ИИ-лабораторий, работающих над безопасностью моделей.
Данная работа вписывается в глобальный тренд на усиление контроля над поведением ИИ-систем. На фоне растущих регуляторных требований — от AI Act в Евросоюзе до новых федеральных инициатив в США — техника замораживания нейронов может стать стандартным инструментом при дообучении коммерческих моделей. Для разработчиков это означает возможность создавать специализированные ИИ-решения, не опасаясь непредвиденных сбоев в безопасности.






