MODEL COMPARISON

GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать

Сравнение GPT-5.4, GPT-5.5 и Codex по скорости, цене и качеству. Когда брать flagship, когда mini, когда Codex — реальные цифры и сценарии.

·Обновлено ·gpt-5 · comparison · models · pricing

GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать

Три модели на одном ключе — три разных сценария. Разбираем, когда какая выгоднее, на основе реальных тарифных коэффициентов Codex Key.

TL;DR

МодельКоэф.За 1M токенов*Когда брать
Codex (gpt-5.4-mini)×0.9~$0.024Автодополнение, рефакторинг, code-review
GPT-5.4×1.0~$0.027Универсальный default, chat, агенты
GPT-5.5×4.5~$0.12Сложные reasoning-задачи, multi-step планирование

*На тарифе Team ($90 / 6 000 ₽). На Starter цена за миллион выше.

GPT-5.4 — рабочая лошадка

Когда: 80% задач. Чаты, code-gen, агенты, RAG, summarization.

Плюсы:

  • Самый дешёвый среди flagship-моделей
  • Стабильная latency 800–1500ms на стриминге
  • Поддерживает Fast / Priority режимы (×2 коэффициент, +30% к скорости)

Минусы:

  • На multi-step reasoning проигрывает GPT-5.5 на ~15%
  • Context window 200k — меньше, чем у GPT-5.5

GPT-5.5 — для сложного reasoning

Когда: SQL-планирование, агенты с tool use, длинные context-задачи (400k+), сложный код-ревью.

Плюсы:

  • Лучшее качество на reasoning-бенчмарках (HumanEval, MBPP)
  • Context window 400k
  • Лучше держит multi-turn-диалог без галлюцинаций

Минусы:

  • ×4.5 — в 4.5 раза дороже GPT-5.4
  • Latency 1500–3000ms — тяжелее для интерактивных UI

Codex — для кода

Когда: автокомплит в IDE, рефакторинг, генерация бойлерплейта, code-review-комментарии.

Плюсы:

  • ×0.9 — дешевле GPT-5.4
  • Заточен под код: лучше понимает контекст файла, импорты, типы
  • Быстрее GPT-5.4 на коде (~500–1000ms)

Минусы:

  • Слабее на тексте, объяснениях, документации
  • Меньше подходит для агентов с tool use

Простая стратегия выбора

  1. По умолчаниюgpt-5.4. 80% задач решает дешевле и быстрее всего.
  2. Кодовые задачи в IDE — переключайтесь на codex для экономии 10%.
  3. Reasoning, планирование, сложный код-ревьюgpt-5.5, но только когда gpt-5.4 не справился.

Reasoning effort: low / medium / high / xhigh

Все модели поддерживают параметр reasoning_effort. Он не меняет коэффициент токена, но влияет на качество и количество токенов в ответе:

  • low — короткие ответы, минимум reasoning. Лучше для chat.
  • medium (default) — баланс.
  • high — глубокий reasoning, +30–50% токенов в ответе.
  • xhigh — максимум. Для исследовательских задач.

Fast / Priority

Платите ×2 к токену — получаете приоритет в очереди и +30% к скорости. Имеет смысл для realtime-сценариев (voice, live-completion).

Готовый prompt-template для роутера

def pick_model(task: str) -> str:
    if task in ("code-completion", "refactor", "review-comment"):
        return "codex"
    if task in ("planning", "multi-step-reasoning", "long-context"):
        return "gpt-5.5"
    return "gpt-5.4"

Стартуйте с gpt-5.4, измеряйте qualitу через ваши evals, повышайте до gpt-5.5 только там, где видна разница.