Токенная экономика Codex Key: что считается и как платить меньше
Разбор: как Codex Key считает токены, что такое тарифные коэффициенты, какие приёмы реально сокращают счёт, а какие — миф.
Токенная экономика Codex Key: что считается и как платить меньше
Если коротко: вы платите за токены, а не за запросы или минуты. Этот пост разбирает, как именно считается каждый запрос, и где спрятаны рычаги экономии.
Что вообще такое токен
Токен — это кусочек текста, на который модель режет вход и выход. Русский текст: ~1 токен на 2-3 символа. Английский: ~1 токен на 4 символа. Код: токенизация плотнее, обычно ~1 токен на 3-4 символа.
Грубая прикидка для планирования:
- 1 страница A4 текста ≈ 400-500 токенов
- 100 строк Python ≈ 800-1200 токенов
- Один SWE-bench тикет (вход + выход) ≈ 15-40k токенов
Формула счёта Codex Key
billed_tokens = (input_tokens + output_tokens) × model_coef × mode_coef
| Множитель | Значения |
|---|---|
model_coef | codex-5.3 ×0.9 · gpt-5.4 ×1.0 · gpt-5.5 ×4.5 |
mode_coef | standard ×1.0 · fast ×2.0 · priority ×2.0 |
Пример. Запрос к gpt-5.5 в Priority с 3000 входных и 800 выходных токенов:
(3000 + 800) × 4.5 × 2.0 = 34 200 биллинговых токенов
На тарифе Team (~3.4 млрд токенов за 6 000 ₽) это ~0.06 ₽ за запрос.
Что реально сокращает счёт
1. Правильный выбор модели (×5 экономии)
Перевод 80% запросов с gpt-5.5 на gpt-5.4 снижает счёт в 4.5 раза. Эскалируйте до 5.5 только там, где видна разница в качестве.
2. Короткие system prompts (×1.3-2.0)
Длинный system prompt отправляется в каждом запросе. 2 000 токенов system × 100 запросов = 200k токенов до того, как пользователь что-то написал. Сократите до 500 — экономите 150k.
3. Truncate history разумно
Чаты по умолчанию шлют всю историю. После 20 ходов это 30-50k токенов вход. Стратегии:
- Sliding window последних N сообщений
- Summarization старых ходов через
gpt-5.4раз в N итераций - Tool-aware compaction: выкидывайте сырые tool outputs после использования
4. Stop-секвенции и max_tokens
client.chat.completions.create(
model="gpt-5.4",
messages=[...],
max_tokens=400, # обрежет ответ
stop=["\n\n---", "</answer>"],
)
Без max_tokens модель может уйти в 2-3k токенов на ровном месте.
5. Reasoning effort
reasoning_effort: low даёт ответы на 30-50% короче, чем medium. Если задача простая (классификация, краткий ответ) — ставьте low.
6. Streaming + ранний разрыв
Если приложение умеет обрывать ответ при выполнении условия (например, JSON } закрылся) — экономите на хвосте.
Что не работает
- «Сжатие промпта» через GPT — обычно стоит больше, чем экономит.
- Замена слов на эмодзи — токенизация эмодзи плотнее, не дешевле.
- Перевод на английский — экономия ~20%, но качество на русских доменных задачах падает сильнее. Считайте, оправдано ли.
Как смотреть счёт
В кабинете Codex Key есть раздел Использование: разбивка по моделям, режимам, дням. Каждый запрос фиксируется с request_id (он же возвращается в response header x-request-id). Если что-то выглядит подозрительно — пишите в саппорт с этим ID.
Пример: рефакторинг бюджета на конкретной команде
Команда из 8 разработчиков, ~2000 запросов/день:
| Изменение | Экономия / месяц |
|---|---|
Перенесли autocomplete с gpt-5.4 на codex-5.3 | ~10% |
| Сократили system prompt с 1800 до 600 токенов | ~22% |
| Добавили summarization истории в чатах > 15 ходов | ~18% |
Поставили max_tokens: 600 на классификационные хендлеры | ~7% |
| Итого | ~50% |
С тарифа Team на тариф Pro — экономия 36 000 ₽ в год без потери качества.
Итог
Самый большой рычаг — выбор модели под задачу. Второй по силе — гигиена system prompts и истории. Всё остальное — тонкая настройка на полпроцента.
Начните с разметки 5 самых частых эндпоинтов в вашем приложении: какая модель, какой reasoning_effort, какой max_tokens. Это даёт 80% экономии за вечер работы.