3.1 KiB
3.1 KiB
Run Pack Spec V1
Дата: 2026-04-02
Назначение: единый структурный контракт для run-артефактов Address Query.
1. Обязательная структура папки
Путь:
docs/ADDRESS/runs/<run_id>/
Обязательные файлы:
run_summary.jsonfull_live_results.jsonfailures_only.jsonREADME.md
Отсутствие любого из файлов = run-pack невалиден для gate.
2. Минимальные поля run_summary.json
2.1 Top-level
run_idgenerated_at(илиdateдля legacy)source_questions_filestrict_policytotals(object)
2.2 totals
questions_totalsemantic_pass_countroute_pass_countstrict_pass_countfactual_countpartial_coverage_counthttp_error_count
Рекомендуется (если есть):
route_pass_ratestrict_pass_rateexecution_error_countfalse_factual_countfalse_factual_rate
3. Минимальные поля full_live_results.json
Top-level:
run_idrows(array)
Для каждой строки rows:
id(илиcase_id)questionreply_type(илиassistant_reply_type)actual_intent(илиdetected_intent)selected_reciperoute_passstrict_passmcp_call_status(илиexecution_status)limited_reason_category(если partial/limited)debug_payload
4. Минимальные поля failures_only.json
Файл должен быть JSON array.
Рекомендуемые поля элемента:
id(илиcase_id)questionfailure_typeexpectedactualdiagnostic_summaryrecommended_fix_owner
5. README.md run-пака должен содержать
- цель прогона
- используемый question set
- команду запуска
- итоговые метрики
- список известных отклонений (если есть)
- решение:
promote | fix_required
6. Gate Rules
Domain gate:
strict_pass(route)=100%false_factual_rate=0execution_error_rate=0
Global gate:
- baseline stress не ниже эталона
- baseline follow-up не ниже эталона
- нет роста
execution_error_count
7. Автоматические проверки
Structural validator:
python scripts/validate_address_run_pack.py docs/ADDRESS/runs/<run_id>
Baseline comparator:
python scripts/compare_address_run_summary.py --baseline-summary <baseline_run_summary.json> --candidate-summary <candidate_run_summary.json>
Nightly regression orchestrator:
python scripts/run_address_nightly_regression.py
Windows wrapper:
powershell -ExecutionPolicy Bypass -File .\scripts\run_address_nightly_regression.ps1
8. Сопровождающие обновления docs
После успешного run-пака обновляются:
runtime_readiness_matrix_v1.mdaddress_scenario_matrix.mdglobal_execution_checklist_v1.mdstage_closeout_*.md(для крупных этапов)