Anthropic Batch API · cost optimization
Батч-скоринг — −50% на LLM, SLA до ~3ч
Звонки, которые не требуют real-time-ответа, накапливаются в очередь и уходят в Anthropic Batch API каждые 2.0 ч. Скидка 50% применяется поверх prompt caching (итого ~58% vs cold real-time). Кэш stays warm между батчами в окне 5 мин — первая сабмишн пишет, следующие читают.
Очередь
batch_pending: 0 ·
batch_submitted: 0 ·
done: 280 ·
failed: 9
ETA следующей сабмишн:
в окне ближайших 2.0 ч
(scheduler запускает submit каждый interval, poll каждые ≤5 мин)
Прогноз на 0 ожидающих:
realtime cost: $0.00
→
batch cost: $0.00
(экономия $0.00)
История батчей
последние 30
Ещё ни одного батча не было отправлено. Нажми «Запустить батч сейчас» или
дождись scheduler tick-а.
Как это работает
- Загружаешь звонок → транскрибируется как обычно → статус
batch_pending. - Scheduler каждые 2.0 ч
гребёт все
batch_pendingи сабмитит как один batch запрос в Anthropic → статусbatch_submitted. - Каждые ≤5 мин scheduler опрашивает in-flight батчи. Обычно Anthropic заканчивает в пределах 30-60 мин (p95 <1ч, но SLA 24ч).
- Когда batch
ended— вытаскиваем per-request результаты, каждый проходит полный pipeline (normalize → Scoring → alerts → CRM push → Telegram). Per-request фейлы ставят звонок вfailed. - Cost пишется в
usage_logс operation=analyze_batch, SpendGuard учитывает наравне с realtime.