Проходим тесты с помощью нейросети
Автор: MashaGPT • 21 Ноября, 2023 • НейросетиОчевидно, что решать тесты, мгновенно получать ответы на тестовые вопросы - должно оказаться очень простой задачей для чат-бота Chat GPT версии 3.5 и тем более 4. В этой нейросети загружены миллионы гигабайт текстовых данных, соответственно “ИИ знает всё”, то есть почти всё. Попробуем ответить на вопросы простого теста, уровня средней школы. Мы взяли типовой онлайн-тест из Интернета на эрудицию, 10 вопросов с 4 вариантами ответов каждый. Поочередно отправим каждый вопрос теста в нейросеть Chat GPT-4, снабжая этот запрос и всеми указанными вариантами ответов. Вот некоторые примеры вопросов из онлайн-теста:
В чат-боте МашаGPT с включенной моделью GPT-4 запросы и ответы на них выглядели соответствующим образом:
Ответы нейросети, как обычно, мгновенны и непринужденны - ИИ пишет ответ, и усердно пытается давать еще и краткие разъяснения, хотя и так все понятно. Итого прохождения первого теста с помощью нейросети - 10 из 10, 100% правильных ответов!
Прекрасно, и сомнений не было. ИИ виртуозно извлекает нужную, правильную информацию из своей базы знаний. Обычные тестовые задания, тем более в формате перечисления вариантов ответа для выбора одного правильного - просто не оставляет шансов на некорректный ответ! Попробуем что-то посложнее, например решить математические тесты. Например, тема “Степени”, базовый курс:
Немного перефразировав предложение, т.к. с клавиатуры просто так нельзя набрать знак степени, получаем правильный ответ:
еще пример, теперь из задачника с тестами по тригонометрии:
Ответ “минус синус t” - верный, что легко проверить с помощью справочника:
Отлично. Попробуем тест в формате без перечисления вариантов ответа - тут надо знать тематику вопроса, и ответить отрицательно или утвердительно. То есть, у нас не будет подсказок - нейросети нужно будет “вспомнить” правильный ответ самостоятельно, а не работать с готовыми вариантами ответов, выискивая единственный верный из них. Проверяем:
Ответ правильный. Правда, Chat GPT как-то странно назвал соответствующий маневр - “высечка”, а не “галс”. Но суть ответа на вопрос в тесте это не поменяло - ответ утвердительный “да”, и это правильно. Идем дальше. Испытаем умение нейросети размышлять - предложим ответить на вопросы из теста на силу логики. Такие задачи уже не каждый человек может решать быстро, тут необходимо умение мыслить именно логически стройно: Вопрос для любителей пушистых друзей. В квартире проживают домашние животные: собаки и кошки. Из всех животных только одно не является собакой, при этом все питомцы, кроме одного, — кошки. Сколько всего кошек и собак? Варианты ответа: 1. Одна кошка и одна собака. 2. Две собаки и одна кошка. 3. Две собаки и две кошки. 4. Tри собаки и одна кошка. Не раздумывая, ответ ChatGPT предоставил мгновенно, приведя доводы выбора этого варианта:
Проверяем в источнике, какой же ответ верный?
Ответ нашего нейро-помощника неправильный! К сожалению, нельзя выяснить здесь и сейчас, почему так случилось. Но факт - бот ChatGPT с запутанным логическим вопросом не справился! Возьмем это на заметку и идем дальше, следующий вопрос: Отправимся в небольшое путешествие. В гостинице 4 этажа. Чем выше этаж, тем больше людей там проживает. На какой этаж лифт ездит чаще всего?
Отправляем ответ нейроробота в окно онлайн-теста, и:
В десятку! Обманной фразой в текста тесте - нейросеть не проведешь! Действительно, со всех этажей лифт всегда едет вниз, на первый этаж, что и есть правильный ответ. Еще один тестовый вопрос “на хитроумие”. Заряжем вопрос в чат-бот GPT-4: На ферме было два коня, один щенок, один кролик, одна кошка, свинья и поросенок, корова и теленок, индюк и гусь. Пришел хозяин с собакой. Сколько на ферме стало ног? Выбери правильный ответ: 2, 46, 44 или 26.
Нейросеть ошиблась! Посчитала ноги всех присутствующих. Закавыка тут в том, что ноги есть и у человека, но и у копытных животных - коров, лошадей, свиней. Поэтому правильный ответ по тесту - “26 ног”. Нюанс, который нейросеть не учла. Интересное развитие событий. Неужели нейросеть не умеет “думать” над логической задачей с подковыркой? Напоследок еще одну задачу с хитринкой. ИИ справится или нет? Уже волнительно :) Сколько яиц можно съесть натощак? Выбери правильный ответ: Одно, два, три или четыре?
Опять невпопад, не тот ответ! Даем подсказку нейросетевому мыслителю:
Теперь ответ верный. Увы, но только с помощью подсказки GPT-нейросеть смогла понять суть вопроса и выбрать корректный ответ. “Логика - не ваш конёк”!
Подводим итоги
На основе данного мини-исследования - “умеет ли нейросеть решать тесты?” - нам удалось получить сразу и хорошую, но и плохую новости. Начнем с новости хорошей - нейросети современного поколения хорошо решают математические тесты, а также корректно отвечают на вопросы в тестах, в которых вопрос задан четко, а также присутствуют варианты правильных ответов. На такие вопросы ChatGPT отвечает правильно, без запинок. А вот варианты на логику, да еще с каверзными моментами внутри самих вопросов - для искусственного интеллекта часто оказываются не по зубам. Нейробот ошибается, и только с помощью наводящих подсказок можно подвести его к выбору верного решения. Увы, пока так. Тем не менее, явно видно, что используя нейросеть для решения обычных тестов, например по школьной или студенческой программе, можно за короткое время получить большое число правильных ответов. При этом, если это возможно, то очень желательно под рукой иметь систему проверки этих нейро-ответов - на всякий случай, раз нейросети могут ошибаться даже при вопросах в тестах, в которых “всего-то” надо выбрать 1 правильный ответ. Поэтому, работая в паре с нейросетью при решении тестов - всегда и каждый раз проверяйте корректность ответов вашего электронного помощника, вдруг он запутался в суждениях и “ляпнул” не то, что считается правильным решением очередного вопроса теста!
Погрузись в мир ИИ
MashaGPT - интерфейс для работы с ChatGPT для пользователей из России.