С появлением Llama 3 от Meta вопросы производительности и сравнения с другими крупными языковыми моделями (LLM) стали как никогда актуальны. Нас интересует не только теоретическая мощность, но и практические результаты в реальных задачах: понимание текста, логика, генерация, кодирование и устойчивость в диалоге. В этой статье мы делимся сравнительным анализом, основанным на результатах из открытых бенчмарков, а также рассмотрим, в чём именно Llama 3 демонстрирует свои сильные стороны.
Основные бенчмарки для оценки LLM
Перед тем как перейти к результатам, важно понять, какие метрики и тесты используются для оценки языковых моделей. В индустрии сложился определённый набор стандартных бенчмарков:
- MMLU (Massive Multitask Language Understanding) — проверка знаний и логического мышления на академических задачах
- GSM8K — арифметические и логические задачи для оценки пошаговых рассуждений
- ARC (AI2 Reasoning Challenge) — научные тесты на уровне начальной и средней школы
- HellaSwag — завершение предложений и работа с контекстом
- TruthfulQA — устойчивость к ложным утверждениям и дезинформации
- HumanEval — генерация и выполнение кода на Python
- MT-Bench и AlpacaEval — оценки качества в диалогах на основе предпочтений людей и других моделей

Результаты Llama 3 в сравнении с другими моделями
Meta предоставила официальные результаты для Llama 3 в версиях 8B и 70B параметров. Мы приводим усреднённые данные из открытых источников и публикаций с весны 2024 года.
Бенчмарк | Llama 3 8B | Llama 3 70B | GPT-3.5 | GPT-4 | Claude 3 | Mistral 7B |
---|---|---|---|---|---|---|
MMLU | 63.5% | 79.5% | 70.0% | 86.4% | 83.1% | 64.0% |
GSM8K | 74.2% | 90.1% | 57.1% | 92.0% | 89.4% | 72.5% |
ARC-challenge | 61.3% | 77.8% | 70.2% | 88.0% | 84.0% | 62.8% |
TruthfulQA | 55.9% | 69.0% | 41.3% | 76.0% | 75.1% | 51.2% |
HumanEval | 30.5% | 65.2% | 48.1% | 67.0% | 61.0% | 35.0% |
MT-Bench | 6.8 | 8.7 | 7.9 | 9.5 | 9.3 | 7.1 |
По нашему мнению, эти показатели говорят о серьёзном прогрессе Meta в области логики, кодирования и устойчивости генерации. Особенно заметен рывок в задачах с пошаговыми рассуждениями (GSM8K) и логике (ARC), где Llama 3 70B приближается к результатам GPT-4.
Сильные стороны Llama 3
На основе тестов и экспериментов выделяются следующие сильные стороны Llama 3:
1. Арифметика и логика (GSM8K, ARC)
Модель уверенно решает задачи, требующие последовательного мышления. Это важно в образовательных и аналитических приложениях.
2. Качественная генерация кода (HumanEval)
Версия 70B показывает устойчивую генерацию кода, корректную по синтаксису и логике. Это даёт возможность применять Llama 3 в задачах автокомплита и написания скриптов.
3. Устойчивость к ложной информации (TruthfulQA)
Модель демонстрирует повышенную способность распознавать дезинформацию и формулировать корректные ответы без галлюцинаций.
4. Естественность диалогов (MT-Bench, AlpacaEval)
Результаты в диалоговых тестах указывают на грамотную работу с контекстом, стилем и интонацией.

Где модель пока уступает
Несмотря на выдающиеся результаты, Llama 3 всё же пока отстаёт от GPT-4 и Claude 3 в некоторых аспектах:
- В задачах генерации длинных и креативных текстов с несколькими уровнями контекста
- В мультимодальности (Llama 3 — текстовая модель, в отличие от GPT-4V и Gemini)
- В скорости инференса без дополнительных оптимизаций
Однако мы считаем, что эти ограничения носят не архитектурный, а скорее тактический характер и могут быть устранены в будущих релизах или сторонними доработками.
Интересные наблюдения из независимых тестов
Некоторые независимые команды провели собственные замеры и пришли к следующим выводам:
- Llama 3 8B на GGUF-формате отлично работает на ноутбуках с 16 ГБ ОЗУ
- Модель устойчива к перегрузке контекста и сохраняет смысл при 8K токенах
- При fine-tuning на задаче генерации инструкций модель показывает рост точности до 10–15%
Использование бенчмарков в реальных сценариях
Важно понимать, что сухие метрики — лишь часть картины. В реальных проектах Llama 3 демонстрирует конкурентные преимущества:
- Быстрое развёртывание с помощью vLLM и Llama.cpp
- Поддержка длинного контекста в работе с PDF, базами знаний и чатами
- Интеграция в пайплайны обучения и анализа данных
Бенчмарки лишь подтверждают, что модель хорошо справляется с широким спектром задач — от технической документации до образовательных ассистентов.
Как тестировать Llama 3 самостоятельно
Для разработчиков, желающих самостоятельно протестировать модель, доступны следующие опции:
- Запуск через Hugging Face Spaces и API
- Локальный запуск с помощью Text Generation WebUI и ggml
- Сравнение с другими моделями через Open LLM Leaderboard
- Использование RAG-сценариев с помощью LlamaIndex
Такой подход позволяет адаптировать тесты под конкретную задачу и сделать выбор в пользу подходящего варианта модели.
Llama 3 уверенно закрепляется в верхней части рейтингов, показывая, что open-source может быть конкурентоспособным даже в условиях доминирования закрытых решений. Мы считаем, что её потенциал раскрывается не только в цифрах, но и в гибкости применения.