Corpus ingestion

📥 Batch-ингест транскрипций (без Whisper, без API)

Парсит уже транскрибированные .txt-файлы с маркерами Speaker 1/2: или именованными спикерами, создаёт Call + Transcript + Operator строки в БД. Анонимизация PII — автоматом. Идемпотентно: повторный запуск пропускает уже загруженные файлы по fingerprint.

Сейчас в системе загружено звонков: 266 · менеджеров: 197.

Параметры
Путь к директории
Лимит файлов (пусто = все)
Ярлык менеджера (авто)
Оставь пустым — определит 2-го уникального спикера.
Опции
Готово
Dry-run прогонит парсер и покажет структуру без записи в БД. Боевой ингест создаёт Call + Transcript + (автоматически) Operator. Дубликаты определяются по fingerprint corpus_mgr_seq.
Что делать после
  1. Запустить Speech analytics → «Вычислить для всех» — посчитает talk-ratio, sentiment-arc, длинные паузы, n-grams.
  2. Обновить Warehouse — incremental refresh (14 дней).
  3. Обучить P(paid) модель на полном корпусе (logistic или GBM).
  4. Прогнать STL + anomaly detector — найдёт дни и менеджеров, отклоняющихся от тренда.
  5. Сбросить benchmark-слой — обновит internal-медиану и top-10%.
  6. Экспортнуть Excel/PPT для руководителей через Reports Centre или через role-dashboards.