MIT разработал метод выявления самоуверенных языковых моделей: ИИ теперь знает, когда он не прав

Исследователи MIT и IBM Watson AI Lab создали новую метрику суммарной неопределённости, которая точнее определяет, когда LLM уверенно даёт неправильный ответ. Метод сочетает внутреннюю самосогласованность модели с перекрёстным сравнением ответов нескольких разных LLM.

Учёные Массачусетского технологического института (MIT) и IBM Watson AI Lab представили новую метрику для измерения неопределённости в больших языковых моделях (LLM). Метод, опубликованный 19 марта 2026 года, позволяет значительно точнее определять, когда модель выдаёт уверенный, но неправильный ответ — одну из главных проблем современных ИИ-систем.

Разработанная метрика суммарной неопределённости (Total Uncertainty, TU) объединяет два подхода. Первый — «эпистемическая неопределённость» — измеряет, насколько расходятся ответы нескольких небольших LLM от разных компаний на один и тот же вопрос. Второй — «алеаторическая неопределённость» — традиционный метод самосогласованности, который оценивает, насколько последовательно одна модель отвечает на повторяющийся вопрос. Комбинация обоих подходов даёт значительно более надёжный сигнал о достоверности ответа.

«Если я задам ChatGPT один и тот же вопрос несколько раз и каждый раз получу одинаковый ответ — это ещё не означает, что ответ правильный», — поясняет Кимия Хамидиех, аспирантка MIT и ведущий автор исследования. По её словам, именно в этом и заключается фундаментальная проблема: модели могут быть стабильно неправы, и прежние методы это не улавливали.

Метод был протестирован на 10 реалистичных задачах, включая ответы на вопросы, суммаризацию, перевод и математические рассуждения. В каждом из сценариев метрика TU устойчиво превосходила отдельные методы измерения неопределённости по точности выявления ненадёжных предсказаний. При этом новый подход требует меньше запросов к модели, что делает его практичным для реального применения.

Проблема самоуверенных LLM особенно критична в медицине, праве и финансах — сферах, где ошибка модели может иметь серьёзные последствия. Соавтор исследования, профессор MIT Марзие Гасеми, специализируется на применении ИИ в здравоохранении и подчёркивает, что знать о неопределённости модели так же важно, как знать её ответ: без этого невозможно принимать обоснованные решения.

Разработка MIT открывает путь к более надёжным ИИ-системам, способным честно сигнализировать о пределах своих знаний. Если включить подобные метрики в популярные продукты — ChatGPT, Claude, Gemini — пользователи смогут получать не просто ответ, но и оценку его надёжности. Это особенно актуально на фоне роста использования LLM в критически важных приложениях и стремительного увеличения числа автономных ИИ-агентов, принимающих решения без участия человека.

MIT разработал метод выявления самоуверенных языковых моделей: ИИ теперь знает, когда он не прав

Читайте также

AWS и Google Cloud запустили совместный сервис мультиоблачной связи — Azure подключится в 2026 году

DeepSeek выпустил V4 — новая модель превзошла GPT-5 на математических бенчмарках

ИИ-стартап Zanskar за три года нашёл больше геотермальных источников, чем вся отрасль за 30 лет

NVIDIA представила платформу физического ИИ для медицинской робототехники на GTC 2026

OpenAI готовится к IPO — оценка может превысить $300 млрд

Регулирование клонирования голоса ИИ: голос признан биометрическими данными