В мире

Экзамен по истории стал проблемой для ИИ: GPT-4 Turbo справился только на 46%

Новые тесты показали: искусственный интеллект терпит неудачу в сложных исторических вопросах

Автор: Александр Кондратьев

20 января 2025

Фото: RusPhotoBank

Последнее исследование Австрийского института комплексных наук (CSH) выявило ограничения современных нейросетей в освоении сложного исторического материала. На научной конференции NeurIPS было представлено, что даже продвинутая модель GPT-4 Turbo от OpenAI демонстрирует всего 46% точности в ответах на сложные вопросы, что едва превышает уровень случайных ответов, пишет PEPELAC.NEWS.

Исследователи применили инструмент оценки «Hist-LLM», созданный на основе глобальной базы данных Seshat, для изучения способностей моделей GPT-4, Llama и Gemini к ответам на исторические вопросы. Сложности возникли, например, при идентификации ИИ наличия определенных технологий или военных аспектов в древних цивилизациях.

Доктор Мария дель Рио-Чанона из Университетского колледжа Лондона подчеркнула, что несмотря на обширные возможности ИИ, эти системы пока не могут заменить глубокие знания и аналитические способности человека, особенно когда речь идет о малоизученных или редких аспектах истории.

Исследование также показало, что результаты ИИ хуже по историческим вопросам стран южнее Сахары, что может указывать на смещенность в обучающих данных. Вопреки этим проблемам, ученые остаются оптимистичны относительно будущего использования нейросетей в исторических исследованиях и стремятся улучшить эти технологии для более точного и всестороннего анализа.