«Страшно, друзья» — так отреагировали испытатели нового ChatGPT
Нисколько не стесняюсь этого кликбейтного зага, поскольку сам угрохал свой выходной, чтобы внимательно изучить один интересный тест. В общем, автор Хабра решил прогнать новую модель ChatGPT, которую OpenAI выложил в прошлый четверг, через вопросы из игры «Что? Где? Когда?». Ведь по заявлениям разработчиков, они таки создали ИИ, способный не просто перебирать варианты из своей базы знаний, но РАССУЖДАТЬ, причем чуть ли не на уровне настоящих ученых или, например, участников различных олимпиад.
Сам автор оценивает подобранные вопросы из «Что? Где? Когда?» как средние по интеллектуальному уровню. Вот как он объясняет формат вопросов:
«Помимо спортивного программирования, мы с друзьями иногда участвуем в турнирах по спортивному "Что? Где? Когда?". Если кто не знает, принцип там такой же, как и в телевизионной игре: нужно отвечать на вопросы, используя логику и рассуждения, а не эрудицию (хотя, безусловно, общие знания тоже бывают нужны для ответа). Основное отличие от телевизионной версии в том, что в ответе требуются максимально конкретные формулировки, потому что ответы сдаются на листочках, а не обсуждаются с ведущим вслух».
Далее он взял вопросы из турнира, в котором участвовал лично в 2022 году — Лига вузов Европы. Его команда смогла дать 23 правильных ответа на 36 вопросов. И прогнал через них текущую коммерческую модель ChatGPT 4o (которой я пользуюсь почти каждый день) и «рассудительную» модель ChatGPT o1-preview.
Вот типичный вопрос из этой спортивной викторины:
«В историческом романе описывается, как бредут потерявшие свои дома люди и их волосы кажутся седыми. Назовите любой из трёх городов, откуда эти люди идут».
Правильный ответ: Помпеи. Могут быть засчитаны и варианты: Геркуланум, Стабии.
Так вот, ChatGPT o1-preview назвала все три города за 10 секунд. Обычный коммерческий ChatGPT 4o допустил ошибку — «Хиросима». Живые участники ответить и вовсе не смогли.
И так далее. В итоге, ChatGPT o1 ответила правильно на 25 вопросов из 35. Живые люди оказались на втором месте — 23. Хуже всего выступила ChatGPT 4o - 11 ответов.
Ниже даю ссылку, если вам будет интересно почитать рассуждения версии 4o по каждому вопросу. Признаюсь, многие из них действительно кажутся разумными. Именно так и стал бы рассуждать ученый или эксперт. Мне также показались интересными многие комментарии к статье, среди которых самые интересные — это на тему: а не имелись ли эти вопросы в базе знаний ИИ (его еще называют дата-сетом), то есть не знала ли нейросеть ответы заранее?
И да, я разделяю вывод автора — мне тоже страшно.
https://habr.com/ru/articles/843278/
Нисколько не стесняюсь этого кликбейтного зага, поскольку сам угрохал свой выходной, чтобы внимательно изучить один интересный тест. В общем, автор Хабра решил прогнать новую модель ChatGPT, которую OpenAI выложил в прошлый четверг, через вопросы из игры «Что? Где? Когда?». Ведь по заявлениям разработчиков, они таки создали ИИ, способный не просто перебирать варианты из своей базы знаний, но РАССУЖДАТЬ, причем чуть ли не на уровне настоящих ученых или, например, участников различных олимпиад.
Сам автор оценивает подобранные вопросы из «Что? Где? Когда?» как средние по интеллектуальному уровню. Вот как он объясняет формат вопросов:
«Помимо спортивного программирования, мы с друзьями иногда участвуем в турнирах по спортивному "Что? Где? Когда?". Если кто не знает, принцип там такой же, как и в телевизионной игре: нужно отвечать на вопросы, используя логику и рассуждения, а не эрудицию (хотя, безусловно, общие знания тоже бывают нужны для ответа). Основное отличие от телевизионной версии в том, что в ответе требуются максимально конкретные формулировки, потому что ответы сдаются на листочках, а не обсуждаются с ведущим вслух».
Далее он взял вопросы из турнира, в котором участвовал лично в 2022 году — Лига вузов Европы. Его команда смогла дать 23 правильных ответа на 36 вопросов. И прогнал через них текущую коммерческую модель ChatGPT 4o (которой я пользуюсь почти каждый день) и «рассудительную» модель ChatGPT o1-preview.
Вот типичный вопрос из этой спортивной викторины:
«В историческом романе описывается, как бредут потерявшие свои дома люди и их волосы кажутся седыми. Назовите любой из трёх городов, откуда эти люди идут».
Правильный ответ: Помпеи. Могут быть засчитаны и варианты: Геркуланум, Стабии.
Так вот, ChatGPT o1-preview назвала все три города за 10 секунд. Обычный коммерческий ChatGPT 4o допустил ошибку — «Хиросима». Живые участники ответить и вовсе не смогли.
И так далее. В итоге, ChatGPT o1 ответила правильно на 25 вопросов из 35. Живые люди оказались на втором месте — 23. Хуже всего выступила ChatGPT 4o - 11 ответов.
Ниже даю ссылку, если вам будет интересно почитать рассуждения версии 4o по каждому вопросу. Признаюсь, многие из них действительно кажутся разумными. Именно так и стал бы рассуждать ученый или эксперт. Мне также показались интересными многие комментарии к статье, среди которых самые интересные — это на тему: а не имелись ли эти вопросы в базе знаний ИИ (его еще называют дата-сетом), то есть не знала ли нейросеть ответы заранее?
И да, я разделяю вывод автора — мне тоже страшно.
https://habr.com/ru/articles/843278/