NODEDC_1C/docs/TECH/history_colibration.md

3.8 KiB

История калибровки: статус на 2026-04-09

Этот документ фиксирует текущее состояние системы автопрогонов и ручной разметки в GUI. Ранее здесь был концептуальный черновик. Теперь это рабочая сводка "что уже внедрено / что осталось".

1. Что уже формализовано

  1. Канон поведения ассистента:
    • docs/TECH/assistant_canon.md
  2. Реестр возможностей ассистента:
    • docs/TECH/capabilities_registry.json
  3. Схема управленческой разметки кейсов:
    • docs/TECH/manual_case_decision_schema.json

2. Что реализовано в интерфейсе "История автопрогонов"

  1. Генерация вопросов:
    • режимы qwen_seed и codex_creative;
    • редактируемая пачка вопросов перед запуском;
    • выбор "личности" генерации;
    • отдельный prompt для выбранной личности.
  2. Асинхронные прогоны:
    • запуск через POST /api/eval/run-async/start;
    • проверка статуса через GET /api/eval/run-async/:job_id;
    • обновление экрана в live-цикле polling.
  3. Разметка ответа ассистента:
    • рейтинг 1..5;
    • комментарий;
    • manual_case_decision;
    • автор разметки.
  4. Операции по комментарию:
    • отметка resolved / unresolved;
    • фильтр "скрыть выполненные";
    • фильтр по manual_case_decision.
  5. Пост-анализ:
    • очереди фиксов из решений разметки;
    • агрегаты по доменам и категориям.

3. Файлы данных, которые формируются рантаймом

  1. Разметка ответов:
    • llm_normalizer/data/autorun_annotations/annotations.json
  2. История автогенерации:
    • llm_normalizer/data/autorun_generators/history.json
  3. Сгенерированные кейс-сеты:
    • llm_normalizer/data/eval_cases/*.json
  4. Диалоги кейсов:
    • llm_normalizer/data/assistant_sessions/*.json

4. Управленческие решения manual_case_decision

Текущий enum:

  1. covered_ok
  2. covered_but_bad_answer
  3. candidate_for_implementation
  4. needs_routing_extension
  5. out_of_scope_but_answer_softly
  6. unsafe_question_limit_strictly
  7. needs_dialog_policy_fix
  8. needs_capability_registry_update
  9. bad_test_case

Используются для очередей пост-анализа:

  1. none
  2. policy_fix
  3. routing_extension
  4. soft_boundary
  5. safety_policy
  6. capability_registry
  7. testset_hygiene

5. Что осталось в ближайшем цикле

  1. Дожать UX стабильность модалок разметки (без "вечного сохранения" в UI).
  2. Довести live-визуал прогона до полностью прозрачного режима вопрос/ответ в реальном времени для длинных серий.
  3. Укрепить контроль кодировки UTF-8 на всех точках экспорта/рендера.
  4. Добавить регулярный цикл "разметка -> автокандидаты фиксов -> пакетный ремонт маршрутов".

6. Ссылки на подробный документ процесса

Подробная спецификация по разметке из GUI:

  • docs/TECH/ui_markup_system.md