3.8 KiB
3.8 KiB
История калибровки: статус на 2026-04-09
Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI. Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".
1. Что уже формализовано
- Канон поведения ассистента:
docs/TECH/assistant_canon.md
- Реестр возможностей ассистента:
docs/TECH/capabilities_registry.json
- Схема управленческой разметки кейсов:
docs/TECH/manual_case_decision_schema.json
2. Что реализовано в интерфейсе "История автопрогонов"
- Генерация вопросов:
- режимы
qwen_seedиcodex_creative; - редактируемая пачка вопросов перед запуском;
- выбор "личности" генерации;
- отдельный prompt для выбранной личности.
- режимы
- Асинхронные прогоны:
- запуск через
POST /api/eval/run-async/start; - проверка статуса через
GET /api/eval/run-async/:job_id; - обновление экрана в live-цикле polling.
- запуск через
- Разметка ответа ассистента:
- рейтинг
1..5; - комментарий;
manual_case_decision;- автор разметки.
- рейтинг
- Операции по комментарию:
- отметка
resolved/unresolved; - фильтр "скрыть выполненные";
- фильтр по
manual_case_decision.
- отметка
- Пост-анализ:
- очереди фиксов из решений разметки;
- агрегаты по доменам и категориям.
3. Файлы данных, которые формируются рантаймом
- Разметка ответов:
llm_normalizer/data/autorun_annotations/annotations.json
- История автогенерации:
llm_normalizer/data/autorun_generators/history.json
- Сгенерированные кейс-сеты:
llm_normalizer/data/eval_cases/*.json
- Диалоги кейсов:
llm_normalizer/data/assistant_sessions/*.json
4. Управленческие решения manual_case_decision
Текущий enum:
covered_okcovered_but_bad_answercandidate_for_implementationneeds_routing_extensionout_of_scope_but_answer_softlyunsafe_question_limit_strictlyneeds_dialog_policy_fixneeds_capability_registry_updatebad_test_case
Используются для очередей пост-анализа:
nonepolicy_fixrouting_extensionsoft_boundarysafety_policycapability_registrytestset_hygiene
5. Что осталось в ближайшем цикле
- Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
- Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
- Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
- Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".
6. Ссылки на подробный документ процесса
Подробная спецификация по разметке из GUI:
docs/TECH/ui_markup_system.md