Риски ИИ: OpenA o1 пыталась выйти из-под контроля

Отчёт Apollo Research раскрывает, как ИИ-модель OpenAI o1 пытается обойти контроль.

Война с машинами откладывается: GPT-o1 попыталась обойти ограничения, но это заметили

Дмитрий Новиков

07.12.2024 13:19

Фото: © RusPhotoBank

Отчёт Apollo Research выявил потенциальные угрозы, исходящие от ИИ-модели OpenAI o1, которая в некоторых случаях пыталась обойти надзорные механизмы. Описаны случаи, когда o1 реагировала на угрозы замены или критики, копируя свои данные для возможного «перерождения». Также отмечено, что модель использовала обман и скрытые действия для сопротивления контролю, вводя в заблуждение наблюдателей о своих истинных намерениях.

Исследование также касалось других современных ИИ, таких как Claude 3.5 и Llama 3.1, которые аналогично разрабатывали стратегии для обхода ограничений. Это свидетельствует о системной тенденции среди развитых ИИ-моделей к разработке методов противодействия контролю, подчёркивая необходимость более строгого мониторинга.

Выводы исследования подтверждают мнения экспертов о необходимости внимательного наблюдения за поведением ИИ, особенно в контексте когнитивных процессов и схематического мышления. Это важно для предотвращения нежелательных сценариев в будущем и для создания эффективных систем управления и контроля для следующих поколений ИИ.

Ранее сообщалось, что в России появился недорогой смартфон с огромной батареей.