# История калибровки: статус на 2026-04-09 Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI. Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось". ## 1. Что уже формализовано 1. Канон поведения ассистента: - `docs/TECH/assistant_canon.md` 2. Реестр возможностей ассистента: - `docs/TECH/capabilities_registry.json` 3. Схема управленческой разметки кейсов: - `docs/TECH/manual_case_decision_schema.json` ## 2. Что реализовано в интерфейсе "История автопрогонов" 1. Генерация вопросов: - режимы `qwen_seed` и `codex_creative`; - редактируемая пачка вопросов перед запуском; - выбор "личности" генерации; - отдельный prompt для выбранной личности. 2. Асинхронные прогоны: - запуск через `POST /api/eval/run-async/start`; - проверка статуса через `GET /api/eval/run-async/:job_id`; - обновление экрана в live-цикле polling. 3. Разметка ответа ассистента: - рейтинг `1..5`; - комментарий; - `manual_case_decision`; - автор разметки. 4. Операции по комментарию: - отметка `resolved` / `unresolved`; - фильтр "скрыть выполненные"; - фильтр по `manual_case_decision`. 5. Пост-анализ: - очереди фиксов из решений разметки; - агрегаты по доменам и категориям. ## 3. Файлы данных, которые формируются рантаймом 1. Разметка ответов: - `llm_normalizer/data/autorun_annotations/annotations.json` 2. История автогенерации: - `llm_normalizer/data/autorun_generators/history.json` 3. Сгенерированные кейс-сеты: - `llm_normalizer/data/eval_cases/*.json` 4. Диалоги кейсов: - `llm_normalizer/data/assistant_sessions/*.json` ## 4. Управленческие решения `manual_case_decision` Текущий enum: 1. `covered_ok` 2. `covered_but_bad_answer` 3. `candidate_for_implementation` 4. `needs_routing_extension` 5. `out_of_scope_but_answer_softly` 6. `unsafe_question_limit_strictly` 7. `needs_dialog_policy_fix` 8. `needs_capability_registry_update` 9. `bad_test_case` Используются для очередей пост-анализа: 1. `none` 2. `policy_fix` 3. `routing_extension` 4. `soft_boundary` 5. `safety_policy` 6. `capability_registry` 7. `testset_hygiene` ## 5. Что осталось в ближайшем цикле 1. Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI). 2. Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий. 3. Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера. 4. Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов". ## 6. Ссылки на подробный документ процесса Подробная спецификация по разметке из GUI: - `docs/TECH/ui_markup_system.md`