NODEDC_1C/docs/TECH/history_colibration.md

86 lines
3.8 KiB
Markdown

# История калибровки: статус на 2026-04-09
Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI.
Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".
## 1. Что уже формализовано
1. Канон поведения ассистента:
- `docs/TECH/assistant_canon.md`
2. Реестр возможностей ассистента:
- `docs/TECH/capabilities_registry.json`
3. Схема управленческой разметки кейсов:
- `docs/TECH/manual_case_decision_schema.json`
## 2. Что реализовано в интерфейсе "История автопрогонов"
1. Генерация вопросов:
- режимы `qwen_seed` и `codex_creative`;
- редактируемая пачка вопросов перед запуском;
- выбор "личности" генерации;
- отдельный prompt для выбранной личности.
2. Асинхронные прогоны:
- запуск через `POST /api/eval/run-async/start`;
- проверка статуса через `GET /api/eval/run-async/:job_id`;
- обновление экрана в live-цикле polling.
3. Разметка ответа ассистента:
- рейтинг `1..5`;
- комментарий;
- `manual_case_decision`;
- автор разметки.
4. Операции по комментарию:
- отметка `resolved` / `unresolved`;
- фильтр "скрыть выполненные";
- фильтр по `manual_case_decision`.
5. Пост-анализ:
- очереди фиксов из решений разметки;
- агрегаты по доменам и категориям.
## 3. Файлы данных, которые формируются рантаймом
1. Разметка ответов:
- `llm_normalizer/data/autorun_annotations/annotations.json`
2. История автогенерации:
- `llm_normalizer/data/autorun_generators/history.json`
3. Сгенерированные кейс-сеты:
- `llm_normalizer/data/eval_cases/*.json`
4. Диалоги кейсов:
- `llm_normalizer/data/assistant_sessions/*.json`
## 4. Управленческие решения `manual_case_decision`
Текущий enum:
1. `covered_ok`
2. `covered_but_bad_answer`
3. `candidate_for_implementation`
4. `needs_routing_extension`
5. `out_of_scope_but_answer_softly`
6. `unsafe_question_limit_strictly`
7. `needs_dialog_policy_fix`
8. `needs_capability_registry_update`
9. `bad_test_case`
Используются для очередей пост-анализа:
1. `none`
2. `policy_fix`
3. `routing_extension`
4. `soft_boundary`
5. `safety_policy`
6. `capability_registry`
7. `testset_hygiene`
## 5. Что осталось в ближайшем цикле
1. Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
2. Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
3. Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
4. Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".
## 6. Ссылки на подробный документ процесса
Подробная спецификация по разметке из GUI:
- `docs/TECH/ui_markup_system.md`