BILLING

Токенная экономика Codex Key: что считается и как платить меньше

Разбор: как Codex Key считает токены, что такое тарифные коэффициенты, какие приёмы реально сокращают счёт, а какие — миф.

·billing · tokens · optimization · pricing

Токенная экономика Codex Key: что считается и как платить меньше

Если коротко: вы платите за токены, а не за запросы или минуты. Этот пост разбирает, как именно считается каждый запрос, и где спрятаны рычаги экономии.

Что вообще такое токен

Токен — это кусочек текста, на который модель режет вход и выход. Русский текст: ~1 токен на 2-3 символа. Английский: ~1 токен на 4 символа. Код: токенизация плотнее, обычно ~1 токен на 3-4 символа.

Грубая прикидка для планирования:

  • 1 страница A4 текста ≈ 400-500 токенов
  • 100 строк Python ≈ 800-1200 токенов
  • Один SWE-bench тикет (вход + выход) ≈ 15-40k токенов

Формула счёта Codex Key

billed_tokens = (input_tokens + output_tokens) × model_coef × mode_coef
МножительЗначения
model_coefcodex-5.3 ×0.9 · gpt-5.4 ×1.0 · gpt-5.5 ×4.5
mode_coefstandard ×1.0 · fast ×2.0 · priority ×2.0

Пример. Запрос к gpt-5.5 в Priority с 3000 входных и 800 выходных токенов:

(3000 + 800) × 4.5 × 2.0 = 34 200 биллинговых токенов

На тарифе Team (~3.4 млрд токенов за 6 000 ₽) это ~0.06 ₽ за запрос.

Что реально сокращает счёт

1. Правильный выбор модели (×5 экономии)

Перевод 80% запросов с gpt-5.5 на gpt-5.4 снижает счёт в 4.5 раза. Эскалируйте до 5.5 только там, где видна разница в качестве.

2. Короткие system prompts (×1.3-2.0)

Длинный system prompt отправляется в каждом запросе. 2 000 токенов system × 100 запросов = 200k токенов до того, как пользователь что-то написал. Сократите до 500 — экономите 150k.

3. Truncate history разумно

Чаты по умолчанию шлют всю историю. После 20 ходов это 30-50k токенов вход. Стратегии:

  • Sliding window последних N сообщений
  • Summarization старых ходов через gpt-5.4 раз в N итераций
  • Tool-aware compaction: выкидывайте сырые tool outputs после использования

4. Stop-секвенции и max_tokens

client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_tokens=400,           # обрежет ответ
    stop=["\n\n---", "</answer>"],
)

Без max_tokens модель может уйти в 2-3k токенов на ровном месте.

5. Reasoning effort

reasoning_effort: low даёт ответы на 30-50% короче, чем medium. Если задача простая (классификация, краткий ответ) — ставьте low.

6. Streaming + ранний разрыв

Если приложение умеет обрывать ответ при выполнении условия (например, JSON } закрылся) — экономите на хвосте.

Что не работает

  • «Сжатие промпта» через GPT — обычно стоит больше, чем экономит.
  • Замена слов на эмодзи — токенизация эмодзи плотнее, не дешевле.
  • Перевод на английский — экономия ~20%, но качество на русских доменных задачах падает сильнее. Считайте, оправдано ли.

Как смотреть счёт

В кабинете Codex Key есть раздел Использование: разбивка по моделям, режимам, дням. Каждый запрос фиксируется с request_id (он же возвращается в response header x-request-id). Если что-то выглядит подозрительно — пишите в саппорт с этим ID.

Пример: рефакторинг бюджета на конкретной команде

Команда из 8 разработчиков, ~2000 запросов/день:

ИзменениеЭкономия / месяц
Перенесли autocomplete с gpt-5.4 на codex-5.3~10%
Сократили system prompt с 1800 до 600 токенов~22%
Добавили summarization истории в чатах > 15 ходов~18%
Поставили max_tokens: 600 на классификационные хендлеры~7%
Итого~50%

С тарифа Team на тариф Pro — экономия 36 000 ₽ в год без потери качества.

Итог

Самый большой рычаг — выбор модели под задачу. Второй по силе — гигиена system prompts и истории. Всё остальное — тонкая настройка на полпроцента.

Начните с разметки 5 самых частых эндпоинтов в вашем приложении: какая модель, какой reasoning_effort, какой max_tokens. Это даёт 80% экономии за вечер работы.