# История калибровки: статус на 2026-04-09

Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI.
Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".

## 1. Что уже формализовано

1. Канон поведения ассистента:
   - `docs/TECH/assistant_canon.md`
2. Реестр возможностей ассистента:
   - `docs/TECH/capabilities_registry.json`
3. Схема управленческой разметки кейсов:
   - `docs/TECH/manual_case_decision_schema.json`

## 2. Что реализовано в интерфейсе "История автопрогонов"

1. Генерация вопросов:
   - режимы `qwen_seed` и `codex_creative`;
   - редактируемая пачка вопросов перед запуском;
   - выбор "личности" генерации;
   - отдельный prompt для выбранной личности.
2. Асинхронные прогоны:
   - запуск через `POST /api/eval/run-async/start`;
   - проверка статуса через `GET /api/eval/run-async/:job_id`;
   - обновление экрана в live-цикле polling.
3. Разметка ответа ассистента:
   - рейтинг `1..5`;
   - комментарий;
   - `manual_case_decision`;
   - автор разметки.
4. Операции по комментарию:
   - отметка `resolved` / `unresolved`;
   - фильтр "скрыть выполненные";
   - фильтр по `manual_case_decision`.
5. Пост-анализ:
   - очереди фиксов из решений разметки;
   - агрегаты по доменам и категориям.

## 3. Файлы данных, которые формируются рантаймом

1. Разметка ответов:
   - `llm_normalizer/data/autorun_annotations/annotations.json`
2. История автогенерации:
   - `llm_normalizer/data/autorun_generators/history.json`
3. Сгенерированные кейс-сеты:
   - `llm_normalizer/data/eval_cases/*.json`
4. Диалоги кейсов:
   - `llm_normalizer/data/assistant_sessions/*.json`

## 4. Управленческие решения `manual_case_decision`

Текущий enum:

1. `covered_ok`
2. `covered_but_bad_answer`
3. `candidate_for_implementation`
4. `needs_routing_extension`
5. `out_of_scope_but_answer_softly`
6. `unsafe_question_limit_strictly`
7. `needs_dialog_policy_fix`
8. `needs_capability_registry_update`
9. `bad_test_case`

Используются для очередей пост-анализа:

1. `none`
2. `policy_fix`
3. `routing_extension`
4. `soft_boundary`
5. `safety_policy`
6. `capability_registry`
7. `testset_hygiene`

## 5. Что осталось в ближайшем цикле

1. Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
2. Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
3. Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
4. Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".

## 6. Ссылки на подробный документ процесса

Подробная спецификация по разметке из GUI:

- `docs/TECH/ui_markup_system.md`