Найден недостаток: современные нейросети не смогли сдать продвинутый экзамен по истории

Борис Наумкин

20 января 2025 11:35:57

Исследование показало, что GPT-4 Turbo от OpenAI правильно отвечает на сложные исторические вопросы только в 46% случаев.

Добавить Pepelac News в предпочитаемые источники Google

Новое исследование, проведенное Австрийским институтом комплексных наук (CSH), выявило слабые места искусственного интеллекта в ответах на сложные вопросы по истории. Согласно результатам, опубликованным на конференции NeurIPS, даже самая продвинутая модель GPT-4 Turbo от OpenAI показала точность всего в 46% в вопросах сложного уровня, что лишь немногим выше случайно указанных ответов.

Исследователи использовали для оценки AI инструмент «Hist-LLM», основанный на глобальной исторической базе данных Seshat. Они тестировали модели GPT-4, Llama и Gemini на способность ответить на сложные вопросы. Проблемы возникали, например, когда ИИ неверно определяли наличие технологий или армии в древнем Египте.

Доктор Мария дель Рио-Чанона из Университетского колледжа Лондона подчеркнула, что, несмотря на впечатляющие возможности ИИ, такие системы все еще не способны заменить глубокое понимание и анализ исторических данных, которое есть у человека. Например, модели часто ошибались, когда речь шла о редких или менее изученных аспектах истории.

Исследование также выявило, что ИИ-модели показывают худшие результаты по вопросам истории стран, расположенных к югу от Сахары, что может свидетельствовать о предвзятости в обучающих данных. Тем не менее, исследователи остаются оптимистичны относительно будущего применения нейросетей в исторических исследованиях и работают над улучшением инструментов для более точного и всестороннего анализа.

Ранее сообщалось, что сервис CUBe Card позволит туристам без проблем оплачивать покупки, проезд и связь в Китае.