Проходим тесты с помощью нейросети

Автор: MashaGPT • 21 Ноября, 2023 • Нейросети

Проходим тесты с помощью нейросети

Очевидно, что решать тесты, мгновенно получать ответы на тестовые вопросы - должно оказаться очень простой задачей для чат-бота Chat GPT версии 3.5 и тем более 4. В этой нейросети загружены миллионы гигабайт текстовых данных, соответственно “ИИ знает всё”, то есть почти всё. Попробуем ответить на вопросы простого теста, уровня средней школы. Мы взяли типовой онлайн-тест из Интернета на эрудицию, 10 вопросов с 4 вариантами ответов каждый. Поочередно отправим каждый вопрос теста в нейросеть Chat GPT-4, снабжая этот запрос и всеми указанными вариантами ответов. Вот некоторые примеры вопросов из онлайн-теста:

Онлайн тест
Онлайн тест
Онлайн тест
Онлайн тест

В чат-боте МашаGPT с включенной моделью GPT-4 запросы и ответы на них выглядели соответствующим образом:

Ответ чата
Ответ чата
Ответ чата

Ответы нейросети, как обычно, мгновенны и непринужденны - ИИ пишет ответ, и усердно пытается давать еще и краткие разъяснения, хотя и так все понятно. Итого прохождения первого теста с помощью нейросети - 10 из 10, 100% правильных ответов!

Онлайн тест

Прекрасно, и сомнений не было. ИИ виртуозно извлекает нужную, правильную информацию из своей базы знаний. Обычные тестовые задания, тем более в формате перечисления вариантов ответа для выбора одного правильного - просто не оставляет шансов на некорректный ответ! Попробуем что-то посложнее, например решить математические тесты. Например, тема “Степени”, базовый курс:

Онлайн тест

Немного перефразировав предложение, т.к. с клавиатуры просто так нельзя набрать знак степени, получаем правильный ответ:

Ответ чата

еще пример, теперь из задачника с тестами по тригонометрии:

Онлайн тест
Ответ чата

Бесплатный доступ к ChatGPT

Ответ “минус синус t” - верный, что легко проверить с помощью справочника:

Справочник

Отлично. Попробуем тест в формате без перечисления вариантов ответа - тут надо знать тематику вопроса, и ответить отрицательно или утвердительно. То есть, у нас не будет подсказок - нейросети нужно будет “вспомнить” правильный ответ самостоятельно, а не работать с готовыми вариантами ответов, выискивая единственный верный из них. Проверяем:

Ответ чата
Онлайн тест

Ответ правильный. Правда, Chat GPT как-то странно назвал соответствующий маневр - “высечка”, а не “галс”. Но суть ответа на вопрос в тесте это не поменяло - ответ утвердительный “да”, и это правильно. Идем дальше. Испытаем умение нейросети размышлять - предложим ответить на вопросы из теста на силу логики. Такие задачи уже не каждый человек может решать быстро, тут необходимо умение мыслить именно логически стройно: Вопрос для любителей пушистых друзей. В квартире проживают домашние животные: собаки и кошки. Из всех животных только одно не является собакой, при этом все питомцы, кроме одного, — кошки. Сколько всего кошек и собак? Варианты ответа: 1. Одна кошка и одна собака. 2. Две собаки и одна кошка. 3. Две собаки и две кошки. 4. Tри собаки и одна кошка. Не раздумывая, ответ ChatGPT предоставил мгновенно, приведя доводы выбора этого варианта:

Ответ чата

Проверяем в источнике, какой же ответ верный?

Правильный ответ

Ответ нашего нейро-помощника неправильный! К сожалению, нельзя выяснить здесь и сейчас, почему так случилось. Но факт - бот ChatGPT с запутанным логическим вопросом не справился! Возьмем это на заметку и идем дальше, следующий вопрос: Отправимся в небольшое путешествие. В гостинице 4 этажа. Чем выше этаж, тем больше людей там проживает. На какой этаж лифт ездит чаще всего?

Ответ чата

Отправляем ответ нейроробота в окно онлайн-теста, и:

Правильный ответ

В десятку! Обманной фразой в текста тесте - нейросеть не проведешь! Действительно, со всех этажей лифт всегда едет вниз, на первый этаж, что и есть правильный ответ. Еще один тестовый вопрос “на хитроумие”. Заряжем вопрос в чат-бот GPT-4: На ферме было два коня, один щенок, один кролик, одна кошка, свинья и поросенок, корова и теленок, индюк и гусь. Пришел хозяин с собакой. Сколько на ферме стало ног? Выбери правильный ответ: 2, 46, 44 или 26.

Ответ чата
Правильный ответ

Нейросеть ошиблась! Посчитала ноги всех присутствующих. Закавыка тут в том, что ноги есть и у человека, но и у копытных животных - коров, лошадей, свиней. Поэтому правильный ответ по тесту - “26 ног”. Нюанс, который нейросеть не учла. Интересное развитие событий. Неужели нейросеть не умеет “думать” над логической задачей с подковыркой? Напоследок еще одну задачу с хитринкой. ИИ справится или нет? Уже волнительно :) Сколько яиц можно съесть натощак? Выбери правильный ответ: Одно, два, три или четыре?

Ответ чата

Опять невпопад, не тот ответ! Даем подсказку нейросетевому мыслителю:

Ответ чата

Теперь ответ верный. Увы, но только с помощью подсказки GPT-нейросеть смогла понять суть вопроса и выбрать корректный ответ. “Логика - не ваш конёк”!

Подводим итоги

На основе данного мини-исследования - “умеет ли нейросеть решать тесты?” - нам удалось получить сразу и хорошую, но и плохую новости. Начнем с новости хорошей - нейросети современного поколения хорошо решают математические тесты, а также корректно отвечают на вопросы в тестах, в которых вопрос задан четко, а также присутствуют варианты правильных ответов. На такие вопросы ChatGPT отвечает правильно, без запинок. А вот варианты на логику, да еще с каверзными моментами внутри самих вопросов - для искусственного интеллекта часто оказываются не по зубам. Нейробот ошибается, и только с помощью наводящих подсказок можно подвести его к выбору верного решения. Увы, пока так. Тем не менее, явно видно, что используя нейросеть для решения обычных тестов, например по школьной или студенческой программе, можно за короткое время получить большое число правильных ответов. При этом, если это возможно, то очень желательно под рукой иметь систему проверки этих нейро-ответов - на всякий случай, раз нейросети могут ошибаться даже при вопросах в тестах, в которых “всего-то” надо выбрать 1 правильный ответ. Поэтому, работая в паре с нейросетью при решении тестов - всегда и каждый раз проверяйте корректность ответов вашего электронного помощника, вдруг он запутался в суждениях и “ляпнул” не то, что считается правильным решением очередного вопроса теста!