BILLING

Токенная экономика Codex Key: что считается и как платить меньше

Разбор: как Codex Key считает токены, что такое тарифные коэффициенты, какие приёмы реально сокращают счёт, а какие — миф.

19 мая 2026 г.·billing · tokens · optimization · pricing

Токенная экономика Codex Key: что считается и как платить меньше

Если коротко: вы платите за токены, а не за запросы или минуты. Этот пост разбирает, как именно считается каждый запрос, и где спрятаны рычаги экономии.

Что вообще такое токен

Токен — это кусочек текста, на который модель режет вход и выход. Русский текст: ~1 токен на 2-3 символа. Английский: ~1 токен на 4 символа. Код: токенизация плотнее, обычно ~1 токен на 3-4 символа.

Грубая прикидка для планирования:

1 страница A4 текста ≈ 400-500 токенов
100 строк Python ≈ 800-1200 токенов
Один SWE-bench тикет (вход + выход) ≈ 15-40k токенов

Формула счёта Codex Key

billed_tokens = (input_tokens + output_tokens) × model_coef × mode_coef

Множитель	Значения
`model_coef`	`codex-5.3` ×0.9 · `gpt-5.4` ×1.0 · `gpt-5.5` ×4.5
`mode_coef`	`standard` ×1.0 · `fast` ×2.0 · `priority` ×2.0

Пример. Запрос к gpt-5.5 в Priority с 3000 входных и 800 выходных токенов:

(3000 + 800) × 4.5 × 2.0 = 34 200 биллинговых токенов

На тарифе Team (~3.4 млрд токенов за 6 000 ₽) это ~0.06 ₽ за запрос.

Что реально сокращает счёт

1. Правильный выбор модели (×5 экономии)

Перевод 80% запросов с gpt-5.5 на gpt-5.4 снижает счёт в 4.5 раза. Эскалируйте до 5.5 только там, где видна разница в качестве.

2. Короткие system prompts (×1.3-2.0)

Длинный system prompt отправляется в каждом запросе. 2 000 токенов system × 100 запросов = 200k токенов до того, как пользователь что-то написал. Сократите до 500 — экономите 150k.

3. Truncate history разумно

Чаты по умолчанию шлют всю историю. После 20 ходов это 30-50k токенов вход. Стратегии:

Sliding window последних N сообщений
Summarization старых ходов через gpt-5.4 раз в N итераций
Tool-aware compaction: выкидывайте сырые tool outputs после использования

4. Stop-секвенции и `max_tokens`

client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_tokens=400,           # обрежет ответ
    stop=["\n\n---", "</answer>"],
)

Без max_tokens модель может уйти в 2-3k токенов на ровном месте.

5. Reasoning effort

reasoning_effort: low даёт ответы на 30-50% короче, чем medium. Если задача простая (классификация, краткий ответ) — ставьте low.

6. Streaming + ранний разрыв

Если приложение умеет обрывать ответ при выполнении условия (например, JSON } закрылся) — экономите на хвосте.

Что не работает

«Сжатие промпта» через GPT — обычно стоит больше, чем экономит.
Замена слов на эмодзи — токенизация эмодзи плотнее, не дешевле.
Перевод на английский — экономия ~20%, но качество на русских доменных задачах падает сильнее. Считайте, оправдано ли.

Как смотреть счёт

В кабинете Codex Key есть раздел Использование: разбивка по моделям, режимам, дням. Каждый запрос фиксируется с request_id (он же возвращается в response header x-request-id). Если что-то выглядит подозрительно — пишите в саппорт с этим ID.

Пример: рефакторинг бюджета на конкретной команде

Команда из 8 разработчиков, ~2000 запросов/день:

Изменение	Экономия / месяц
Перенесли autocomplete с `gpt-5.4` на `codex-5.3`	~10%
Сократили system prompt с 1800 до 600 токенов	~22%
Добавили summarization истории в чатах > 15 ходов	~18%
Поставили `max_tokens: 600` на классификационные хендлеры	~7%
Итого	~50%

С тарифа Team на тариф Pro — экономия 36 000 ₽ в год без потери качества.

Итог

Самый большой рычаг — выбор модели под задачу. Второй по силе — гигиена system prompts и истории. Всё остальное — тонкая настройка на полпроцента.

Начните с разметки 5 самых частых эндпоинтов в вашем приложении: какая модель, какой reasoning_effort, какой max_tokens. Это даёт 80% экономии за вечер работы.

Токенная экономика Codex Key: что считается и как платить меньше

Что вообще такое токен

Формула счёта Codex Key

Что реально сокращает счёт

1. Правильный выбор модели (×5 экономии)

2. Короткие system prompts (×1.3-2.0)

3. Truncate history разумно

4. Stop-секвенции и max_tokens

5. Reasoning effort

6. Streaming + ранний разрыв

Что не работает

Как смотреть счёт

Пример: рефакторинг бюджета на конкретной команде

Итог

4. Stop-секвенции и `max_tokens`