3.8 KiB

Raw Blame History

История калибровки: статус на 2026-04-09

Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI. Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".

1. Что уже формализовано

Канон поведения ассистента:
- docs/TECH/assistant_canon.md
Реестр возможностей ассистента:
- docs/TECH/capabilities_registry.json
Схема управленческой разметки кейсов:
- docs/TECH/manual_case_decision_schema.json

2. Что реализовано в интерфейсе "История автопрогонов"

Генерация вопросов:
- режимы qwen_seed и codex_creative;
- редактируемая пачка вопросов перед запуском;
- выбор "личности" генерации;
- отдельный prompt для выбранной личности.
Асинхронные прогоны:
- запуск через POST /api/eval/run-async/start;
- проверка статуса через GET /api/eval/run-async/:job_id;
- обновление экрана в live-цикле polling.
Разметка ответа ассистента:
- рейтинг 1..5;
- комментарий;
- manual_case_decision;
- автор разметки.
Операции по комментарию:
- отметка resolved / unresolved;
- фильтр "скрыть выполненные";
- фильтр по manual_case_decision.
Пост-анализ:
- очереди фиксов из решений разметки;
- агрегаты по доменам и категориям.

3. Файлы данных, которые формируются рантаймом

Разметка ответов:
- llm_normalizer/data/autorun_annotations/annotations.json
История автогенерации:
- llm_normalizer/data/autorun_generators/history.json
Сгенерированные кейс-сеты:
- llm_normalizer/data/eval_cases/*.json
Диалоги кейсов:
- llm_normalizer/data/assistant_sessions/*.json

4. Управленческие решения `manual_case_decision`

Текущий enum:

covered_ok
covered_but_bad_answer
candidate_for_implementation
needs_routing_extension
out_of_scope_but_answer_softly
unsafe_question_limit_strictly
needs_dialog_policy_fix
needs_capability_registry_update
bad_test_case

Используются для очередей пост-анализа:

none
policy_fix
routing_extension
soft_boundary
safety_policy
capability_registry
testset_hygiene

5. Что осталось в ближайшем цикле

Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".

6. Ссылки на подробный документ процесса

Подробная спецификация по разметке из GUI:

docs/TECH/ui_markup_system.md

3.8 KiB Raw Blame History