Humanity’s Last Exam: тест, который не пройдёт ни один искусственный интеллект

Борис Наумкин

24 января 2025 11:41:50

Новый бенчмарк «Последний экзамен человечества» выявил слабые стороны топовых AI систем.

Добавить Pepelac News в предпочитаемые источники Google

Недавно представленный бенчмарк, разработанный некоммерческой организацией «Центр безопасности искусственного интеллекта» (CAIS) и компанией Scale AI, который получил название «Последний экзамен человечества» (Humanity’s Last Exam), показал, что даже самые современные системы искусственного интеллекта испытывают трудности с решением сложных задач, требующих комплексного подхода и междисциплинарных знаний.

Тест включает вопросы от более чем 1 000 экспертов из 50 стран, включая профессоров, исследователей и обладателей учёных степеней. Вопросы охватывают широкий спектр дисциплин от математики до гуманитарных и естественных наук, и включают сложные задания с использованием графиков и изображений, что делает их особенно трудными для ИИ.

Результаты первоначального тестирования показали, что точность ответов всех доступных на рынке флагманских ИИ не превышает 10%. Это подчёркивает, что, несмотря на значительные достижения в определенных областях, искусственный интеллект всё ещё далёк от возможности эффективно справляться с многогранными и комплексными задачами, которые требуют глубокого понимания и анализа.

CAIS и Scale AI планируют сделать этот тест доступным для исследовательского сообщества, чтобы специалисты могли использовать его для оценки и совершенствования новых моделей ИИ. Это открывает новые перспективы для развития искусственного интеллекта, делая акцент на углубленном изучении и усовершенствовании его возможностей.

Ранее издание Пепелац Ньюс сообщало, что работа ChatGPT ежемесячно приводит к выбросам 260 тонн углекислого газа.