Разное

Samsung меняет правила игры: собственный бенчмарк для оценки ИИ

Samsung представила TRUEBench — собственный инструмент для тестирования искусственного интеллекта, который должен заменить устаревшие и ограниченные бенчмарки.

Компания отмечает, что существующие решения в основном проверяют ИИ на английском языке и сводятся к примитивным Q&A-сценариям. TRUEBench идёт дальше: в нём более 2,4 тысячи тестов, охватывающих 10 категорий задач — от генерации и перевода текстов до анализа данных и написания резюме документов. Причём проверки доступны сразу на 12 языках, что делает бенчмарк ближе к реальному использованию.

Особенность TRUEBench — это акцент на практические сценарии. В отличие от синтетических тестов, он имитирует рабочие задачи, включая обработку больших документов длиной до 20 тысяч символов. Для оценки результатов используется гибридная система: сначала автоматическая оценка на базе ИИ, затем корректировка человеком. Такой подход, по мнению Samsung, делает систему более объективной.

«TRUEBench поможет компаниям и исследователям понять реальные возможности моделей и укрепит лидерство Samsung в сфере ИИ», — заявил технический директор исследовательского подразделения Пол Чон.

Интересно, что компания решила сделать TRUEBench открытым: образцы данных и таблица лидеров размещены на платформе Hugging Face, а пользователи могут протестировать и сравнить до пяти разных моделей ИИ.

Samsung уверена, что её инструмент со временем станет отраслевым стандартом.