86 lines
3.8 KiB
Markdown
86 lines
3.8 KiB
Markdown
# История калибровки: статус на 2026-04-09
|
|
|
|
Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI.
|
|
Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".
|
|
|
|
## 1. Что уже формализовано
|
|
|
|
1. Канон поведения ассистента:
|
|
- `docs/TECH/assistant_canon.md`
|
|
2. Реестр возможностей ассистента:
|
|
- `docs/TECH/capabilities_registry.json`
|
|
3. Схема управленческой разметки кейсов:
|
|
- `docs/TECH/manual_case_decision_schema.json`
|
|
|
|
## 2. Что реализовано в интерфейсе "История автопрогонов"
|
|
|
|
1. Генерация вопросов:
|
|
- режимы `qwen_seed` и `codex_creative`;
|
|
- редактируемая пачка вопросов перед запуском;
|
|
- выбор "личности" генерации;
|
|
- отдельный prompt для выбранной личности.
|
|
2. Асинхронные прогоны:
|
|
- запуск через `POST /api/eval/run-async/start`;
|
|
- проверка статуса через `GET /api/eval/run-async/:job_id`;
|
|
- обновление экрана в live-цикле polling.
|
|
3. Разметка ответа ассистента:
|
|
- рейтинг `1..5`;
|
|
- комментарий;
|
|
- `manual_case_decision`;
|
|
- автор разметки.
|
|
4. Операции по комментарию:
|
|
- отметка `resolved` / `unresolved`;
|
|
- фильтр "скрыть выполненные";
|
|
- фильтр по `manual_case_decision`.
|
|
5. Пост-анализ:
|
|
- очереди фиксов из решений разметки;
|
|
- агрегаты по доменам и категориям.
|
|
|
|
## 3. Файлы данных, которые формируются рантаймом
|
|
|
|
1. Разметка ответов:
|
|
- `llm_normalizer/data/autorun_annotations/annotations.json`
|
|
2. История автогенерации:
|
|
- `llm_normalizer/data/autorun_generators/history.json`
|
|
3. Сгенерированные кейс-сеты:
|
|
- `llm_normalizer/data/eval_cases/*.json`
|
|
4. Диалоги кейсов:
|
|
- `llm_normalizer/data/assistant_sessions/*.json`
|
|
|
|
## 4. Управленческие решения `manual_case_decision`
|
|
|
|
Текущий enum:
|
|
|
|
1. `covered_ok`
|
|
2. `covered_but_bad_answer`
|
|
3. `candidate_for_implementation`
|
|
4. `needs_routing_extension`
|
|
5. `out_of_scope_but_answer_softly`
|
|
6. `unsafe_question_limit_strictly`
|
|
7. `needs_dialog_policy_fix`
|
|
8. `needs_capability_registry_update`
|
|
9. `bad_test_case`
|
|
|
|
Используются для очередей пост-анализа:
|
|
|
|
1. `none`
|
|
2. `policy_fix`
|
|
3. `routing_extension`
|
|
4. `soft_boundary`
|
|
5. `safety_policy`
|
|
6. `capability_registry`
|
|
7. `testset_hygiene`
|
|
|
|
## 5. Что осталось в ближайшем цикле
|
|
|
|
1. Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
|
|
2. Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
|
|
3. Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
|
|
4. Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".
|
|
|
|
## 6. Ссылки на подробный документ процесса
|
|
|
|
Подробная спецификация по разметке из GUI:
|
|
|
|
- `docs/TECH/ui_markup_system.md`
|