Борис Наумкин
20 января 2025 11:35:57
Фото: © RusPhotoBank
Исследование показало, что GPT-4 Turbo от OpenAI правильно отвечает на сложные исторические вопросы только в 46% случаев.
Новое исследование, проведенное Австрийским институтом комплексных наук (CSH), выявило слабые места искусственного интеллекта в ответах на сложные вопросы по истории. Согласно результатам, опубликованным на конференции NeurIPS, даже самая продвинутая модель GPT-4 Turbo от OpenAI показала точность всего в 46% в вопросах сложного уровня, что лишь немногим выше случайно указанных ответов.
Исследователи использовали для оценки AI инструмент «Hist-LLM», основанный на глобальной исторической базе данных Seshat. Они тестировали модели GPT-4, Llama и Gemini на способность ответить на сложные вопросы. Проблемы возникали, например, когда ИИ неверно определяли наличие технологий или армии в древнем Египте.
Доктор Мария дель Рио-Чанона из Университетского колледжа Лондона подчеркнула, что, несмотря на впечатляющие возможности ИИ, такие системы все еще не способны заменить глубокое понимание и анализ исторических данных, которое есть у человека. Например, модели часто ошибались, когда речь шла о редких или менее изученных аспектах истории.
Исследование также выявило, что ИИ-модели показывают худшие результаты по вопросам истории стран, расположенных к югу от Сахары, что может свидетельствовать о предвзятости в обучающих данных. Тем не менее, исследователи остаются оптимистичны относительно будущего применения нейросетей в исторических исследованиях и работают над улучшением инструментов для более точного и всестороннего анализа.
Ранее сообщалось, что сервис CUBe Card позволит туристам без проблем оплачивать покупки, проезд и связь в Китае.