MODEL COMPARISON

GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать

Сравнение GPT-5.4, GPT-5.5 и Codex по скорости, цене и качеству. Когда брать flagship, когда mini, когда Codex — реальные цифры и сценарии.

18 мая 2026 г.·Обновлено 19 мая 2026 г.·gpt-5 · comparison · models · pricing

GPT-5.4 vs GPT-5.5 vs Codex: какую модель выбрать

Три модели на одном ключе — три разных сценария. Разбираем, когда какая выгоднее, на основе реальных тарифных коэффициентов Codex Key.

TL;DR

Модель	Коэф.	За 1M токенов*	Когда брать
Codex (`gpt-5.4-mini`)	×0.9	~$0.024	Автодополнение, рефакторинг, code-review
GPT-5.4	×1.0	~$0.027	Универсальный default, chat, агенты
GPT-5.5	×4.5	~$0.12	Сложные reasoning-задачи, multi-step планирование

*На тарифе Team ($90 / 6 000 ₽). На Starter цена за миллион выше.

GPT-5.4 — рабочая лошадка

Когда: 80% задач. Чаты, code-gen, агенты, RAG, summarization.

Плюсы:

Самый дешёвый среди flagship-моделей
Стабильная latency 800–1500ms на стриминге
Поддерживает Fast / Priority режимы (×2 коэффициент, +30% к скорости)

Минусы:

На multi-step reasoning проигрывает GPT-5.5 на ~15%
Context window 200k — меньше, чем у GPT-5.5

GPT-5.5 — для сложного reasoning

Когда: SQL-планирование, агенты с tool use, длинные context-задачи (400k+), сложный код-ревью.

Плюсы:

Лучшее качество на reasoning-бенчмарках (HumanEval, MBPP)
Context window 400k
Лучше держит multi-turn-диалог без галлюцинаций

Минусы:

×4.5 — в 4.5 раза дороже GPT-5.4
Latency 1500–3000ms — тяжелее для интерактивных UI

Codex — для кода

Когда: автокомплит в IDE, рефакторинг, генерация бойлерплейта, code-review-комментарии.

Плюсы:

×0.9 — дешевле GPT-5.4
Заточен под код: лучше понимает контекст файла, импорты, типы
Быстрее GPT-5.4 на коде (~500–1000ms)

Минусы:

Слабее на тексте, объяснениях, документации
Меньше подходит для агентов с tool use

Простая стратегия выбора

По умолчанию — gpt-5.4. 80% задач решает дешевле и быстрее всего.
Кодовые задачи в IDE — переключайтесь на codex для экономии 10%.
Reasoning, планирование, сложный код-ревью — gpt-5.5, но только когда gpt-5.4 не справился.

Reasoning effort: low / medium / high / xhigh

Все модели поддерживают параметр reasoning_effort. Он не меняет коэффициент токена, но влияет на качество и количество токенов в ответе:

low — короткие ответы, минимум reasoning. Лучше для chat.
medium (default) — баланс.
high — глубокий reasoning, +30–50% токенов в ответе.
xhigh — максимум. Для исследовательских задач.

Fast / Priority

Платите ×2 к токену — получаете приоритет в очереди и +30% к скорости. Имеет смысл для realtime-сценариев (voice, live-completion).

Готовый prompt-template для роутера

def pick_model(task: str) -> str:
    if task in ("code-completion", "refactor", "review-comment"):
        return "codex"
    if task in ("planning", "multi-step-reasoning", "long-context"):
        return "gpt-5.5"
    return "gpt-5.4"

Стартуйте с gpt-5.4, измеряйте qualitу через ваши evals, повышайте до gpt-5.5 только там, где видна разница.