GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать
Сравнение GPT-5.4, GPT-5.5 и Codex по скорости, цене и качеству. Когда брать flagship, когда mini, когда Codex — реальные цифры и сценарии.
GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать
Три модели на одном ключе — три разных сценария. Разбираем, когда какая выгоднее, на основе реальных тарифных коэффициентов Codex Key.
TL;DR
| Модель | Коэф. | За 1M токенов* | Когда брать |
|---|---|---|---|
Codex (gpt-5.4-mini) | ×0.9 | ~$0.024 | Автодополнение, рефакторинг, code-review |
| GPT-5.4 | ×1.0 | ~$0.027 | Универсальный default, chat, агенты |
| GPT-5.5 | ×4.5 | ~$0.12 | Сложные reasoning-задачи, multi-step планирование |
*На тарифе Team ($90 / 6 000 ₽). На Starter цена за миллион выше.
GPT-5.4 — рабочая лошадка
Когда: 80% задач. Чаты, code-gen, агенты, RAG, summarization.
Плюсы:
- Самый дешёвый среди flagship-моделей
- Стабильная latency 800–1500ms на стриминге
- Поддерживает Fast / Priority режимы (×2 коэффициент, +30% к скорости)
Минусы:
- На multi-step reasoning проигрывает GPT-5.5 на ~15%
- Context window 200k — меньше, чем у GPT-5.5
GPT-5.5 — для сложного reasoning
Когда: SQL-планирование, агенты с tool use, длинные context-задачи (400k+), сложный код-ревью.
Плюсы:
- Лучшее качество на reasoning-бенчмарках (HumanEval, MBPP)
- Context window 400k
- Лучше держит multi-turn-диалог без галлюцинаций
Минусы:
- ×4.5 — в 4.5 раза дороже GPT-5.4
- Latency 1500–3000ms — тяжелее для интерактивных UI
Codex — для кода
Когда: автокомплит в IDE, рефакторинг, генерация бойлерплейта, code-review-комментарии.
Плюсы:
- ×0.9 — дешевле GPT-5.4
- Заточен под код: лучше понимает контекст файла, импорты, типы
- Быстрее GPT-5.4 на коде (~500–1000ms)
Минусы:
- Слабее на тексте, объяснениях, документации
- Меньше подходит для агентов с tool use
Простая стратегия выбора
- По умолчанию —
gpt-5.4. 80% задач решает дешевле и быстрее всего. - Кодовые задачи в IDE — переключайтесь на
codexдля экономии 10%. - Reasoning, планирование, сложный код-ревью —
gpt-5.5, но только когдаgpt-5.4не справился.
Reasoning effort: low / medium / high / xhigh
Все модели поддерживают параметр reasoning_effort. Он не меняет коэффициент токена, но влияет на качество и количество токенов в ответе:
- low — короткие ответы, минимум reasoning. Лучше для chat.
- medium (default) — баланс.
- high — глубокий reasoning, +30–50% токенов в ответе.
- xhigh — максимум. Для исследовательских задач.
Fast / Priority
Платите ×2 к токену — получаете приоритет в очереди и +30% к скорости. Имеет смысл для realtime-сценариев (voice, live-completion).
Готовый prompt-template для роутера
def pick_model(task: str) -> str:
if task in ("code-completion", "refactor", "review-comment"):
return "codex"
if task in ("planning", "multi-step-reasoning", "long-context"):
return "gpt-5.5"
return "gpt-5.4"
Стартуйте с gpt-5.4, измеряйте qualitу через ваши evals, повышайте до gpt-5.5 только там, где видна разница.