Samsung представила TRUEBench — собственный инструмент для тестирования искусственного интеллекта, который должен заменить устаревшие и ограниченные бенчмарки.
Компания отмечает, что существующие решения в основном проверяют ИИ на английском языке и сводятся к примитивным Q&A-сценариям. TRUEBench идёт дальше: в нём более 2,4 тысячи тестов, охватывающих 10 категорий задач — от генерации и перевода текстов до анализа данных и написания резюме документов. Причём проверки доступны сразу на 12 языках, что делает бенчмарк ближе к реальному использованию.
Особенность TRUEBench — это акцент на практические сценарии. В отличие от синтетических тестов, он имитирует рабочие задачи, включая обработку больших документов длиной до 20 тысяч символов. Для оценки результатов используется гибридная система: сначала автоматическая оценка на базе ИИ, затем корректировка человеком. Такой подход, по мнению Samsung, делает систему более объективной.
«TRUEBench поможет компаниям и исследователям понять реальные возможности моделей и укрепит лидерство Samsung в сфере ИИ», — заявил технический директор исследовательского подразделения Пол Чон.
Интересно, что компания решила сделать TRUEBench открытым: образцы данных и таблица лидеров размещены на платформе Hugging Face, а пользователи могут протестировать и сравнить до пяти разных моделей ИИ.
Samsung уверена, что её инструмент со временем станет отраслевым стандартом.