Corpus ingestion

📥 Batch-ингест транскрипций (без Whisper, без API)

Парсит уже транскрибированные .txt-файлы с маркерами Speaker 1/2: или именованными спикерами, создаёт Call + Transcript + Operator строки в БД. Анонимизация PII — автоматом. Идемпотентно: повторный запуск пропускает уже загруженные файлы по fingerprint.

Сейчас в системе загружено звонков: 266 · менеджеров: 197.

Параметры

Путь к директории

Лимит файлов (пусто = все)

Ярлык менеджера (авто)

Оставь пустым — определит 2-го уникального спикера.

Опции

Dry-run (не писать в БД) Пометить как batch_pending (ждать Batch API)

Готово

Dry-run прогонит парсер и покажет структуру без записи в БД. Боевой ингест создаёт Call + Transcript + (автоматически) Operator. Дубликаты определяются по fingerprint corpus_mgr_seq.

Что делать после

Запустить Speech analytics → «Вычислить для всех» — посчитает talk-ratio, sentiment-arc, длинные паузы, n-grams.
Обновить Warehouse — incremental refresh (14 дней).
Обучить P(paid) модель на полном корпусе (logistic или GBM).
Прогнать STL + anomaly detector — найдёт дни и менеджеров, отклоняющихся от тренда.
Сбросить benchmark-слой — обновит internal-медиану и top-10%.
Экспортнуть Excel/PPT для руководителей через Reports Centre или через role-dashboards.