Наука и технологии1717

«Последний экзамен человечества». Для нейросетей создали максимально сложный академический тест — и вот результат

Профессора, ученые, а также выдающиеся выпускники и студенты из почти 500 престижных образовательных учреждений по всему миру решили дать последний академический бой системам искусственного интеллекта, создав для них самый сложный из всех возможных тест экспертного уровня на рассуждение и владение техническими знаниями. Нейросети (в том числе ChatGPT и нашумевший китайский DeepSeek) приняли вызов и уже показали первые результаты.

Иллюстративное изображение. Фото: Vecteezy

Международная команда из 1000 экспертов в различных академических дисциплинах из почти 500 престижных образовательных учреждений (среди которых Оксфорд, Гарвард, Кембридж, Стэнфорд, швейцарский ETH, французская Inria и другие) разработали глобальный тест по техническим и передовым научным знаниям и логическому мышлению для измерения уровня совершенства систем искусственного интеллекта.

Тест получил название HLE (Humanity's Last Exam), или «Последний экзамен человечества». Эксперты назвали его самым сложным академическим испытанием в истории, которое можно создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.

Экзамен HLE состоит из трех тысяч сложных вопросов по ста разным дисциплинам (например, классическая филология, химия, высшая математика, информатика, экология, лингвистика). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.

Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai

В тесте уже приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила весь технологический сектор США).

Все они с треском провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и еще настойчиво утверждали, что были правы), отметили авторы теста HLE.

Есть и показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

Результаты прохождения «Последнего экзамена человечества» (HLE) рядом топовых нейросетей. Все они с треском провалили тест (уровень правильности ответов составлял от 3 до 13 процентов), а лучший результат показала новая версия ChatGPT под названием o3-mini (high), которая вышла недавно. Источник: agi.safe.ai

Также показательно, что существующие сложные глобальные тесты на научные знания, такие как GPQA, MATH и MMLU, давались вышеупомянутым нейросетям намного легче, и те имели в них от 40 до почти 100 процентов правильных ответов.

Однако теперь с созданием теста HLE человечество бросило искусственному интеллекту очень серьезный вызов, который, как печально констатируют эксперты, может стать последним. По прогнозам авторов HLE, нейросети могут достичь в экзамене 50% точности ответов уже в конце этого года.

Сравнительные результаты точности ответов нескольких топовых нейросетей в существующих глобальных узкоспециализированных тестах GPQA, MATH и MMLU. С «Последним экзаменом человечества» (HLE) у систем искусственного интеллекта пока все плохо. Источник: agi.safe.ai

Комментарии17

  • Жвір
    03.02.2025
    А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
  • не такі, як ёсць
    03.02.2025
    Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
  • Хех
    03.02.2025
    Жвір ,
    Трудно сказать, что они там видят.
    Никто исчерпывающе не представляет ход рассуждений ИИ.

    Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

    Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
    И разве ответ неправильный?

Шарендо-Панасюк призналась, что подписала бумаги о сотрудничестве с силовиками и получила имя Эдельвейс14

Шарендо-Панасюк призналась, что подписала бумаги о сотрудничестве с силовиками и получила имя Эдельвейс

Все новости →
Все новости

Пьяный водитель пытался скрыться с места ДТП — милиция стала стрелять по машине1

«Муж платит мне зарплату жены — сейчас это 600 рублей»19

Обезьяна вызвала широкомасштабное отключение электричества в Шри-Ланке3

Маск призывает закрыть «Радио Свобода» и «Голос Америки»67

Зеленский сказал, что готов к переговорам с Путиным при одном условии2

Прокопьев в 2022 году предлагал украинцам зайти на территорию Беларуси55

«Зеленский купил резиденцию Гитлера». Вот откуда пропаганда взяла новый фейк4

В Германии сотни тысяч людей вышли на протест против ультраправых31

Педагогами не смогут работать те, кого осудили по уголовному делу за «экстремизм»7

больш чытаных навін
больш лайканых навін

Шарендо-Панасюк призналась, что подписала бумаги о сотрудничестве с силовиками и получила имя Эдельвейс14

Шарендо-Панасюк призналась, что подписала бумаги о сотрудничестве с силовиками и получила имя Эдельвейс

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць