Humanity’s Last Exam: тест, который не пройдёт ни один искусственный интеллект

Борис Наумкин

Новый бенчмарк «Последний экзамен человечества» выявил слабые стороны топовых AI систем.

Недавно представленный бенчмарк, разработанный некоммерческой организацией «Центр безопасности искусственного интеллекта» (CAIS) и компанией Scale AI, который получил название «Последний экзамен человечества» (Humanity’s Last Exam), показал, что даже самые современные системы искусственного интеллекта испытывают трудности с решением сложных задач, требующих комплексного подхода и междисциплинарных знаний.

Тест включает вопросы от более чем 1 000 экспертов из 50 стран, включая профессоров, исследователей и обладателей учёных степеней. Вопросы охватывают широкий спектр дисциплин от математики до гуманитарных и естественных наук, и включают сложные задания с использованием графиков и изображений, что делает их особенно трудными для ИИ.

Результаты первоначального тестирования показали, что точность ответов всех доступных на рынке флагманских ИИ не превышает 10%. Это подчёркивает, что, несмотря на значительные достижения в определенных областях, искусственный интеллект всё ещё далёк от возможности эффективно справляться с многогранными и комплексными задачами, которые требуют глубокого понимания и анализа.

CAIS и Scale AI планируют сделать этот тест доступным для исследовательского сообщества, чтобы специалисты могли использовать его для оценки и совершенствования новых моделей ИИ. Это открывает новые перспективы для развития искусственного интеллекта, делая акцент на углубленном изучении и усовершенствовании его возможностей.

Ранее издание Пепелац Ньюс сообщало, что работа ChatGPT ежемесячно приводит к выбросам 260 тонн углекислого газа.

Фото: © RusPhotoBank
Эта страница может использовать файлы cookie в аналитических целях.