Как пишет SciTechDaily, большие языковые модели (LLM), лежащие в основе таких систем, как GPT-5, Claude и Gemini, по-разному справляются с классическим тестом Струпа. Этот эксперимент используется в психологии для оценки внимания и когнитивного контроля.
В рамках теста участникам необходимо называть цвет слова, игнорируя само написанное слово. Например, слово "красный", написанное синим цветом, требует назвать именно цвет чернил, а не значение слова. У людей такая задача вызывает эффект Струпа – замедление реакции, но при этом сохраняется высокая точность даже при длительном выполнении.
В ходе эксперимента ИИ-модели показывали хорошие результаты на коротких наборах данных: GPT-4o достигал 91% точности, а Claude 3.5 Sonnet также демонстрировал высокую эффективность. Однако при увеличении объема заданий точность резко снижалась – у GPT-4o до 57% при 10 словах и до 15% при 40. Аналогичное падение наблюдалось и у других моделей.
Исследователи отмечают, что при росте сложности ИИ все чаще "соскальзывал" к автоматическому чтению слов вместо выполнения задачи. По их мнению, это указывает на принципиальные различия между механизмами внимания у человека и трансформерных моделей, а также на ограничения ИИ в задачах, требующих длительного удержания инструкции и устойчивого фокуса.
Ранее сообщалось, что казахский язык стал одним из самых быстрорастущих в ChatGPT.