4.4 KiB
4.4 KiB
Address Query — Execution Lineup V1 (Project Sync)
Дата: 2026-03-29
Принцип выполнения
Один пакет, последовательные subwave, без большого неразмеченного рефакторинга.
Subwave M0 — Contracts and Foundations (No behavior change)
Цель: добавить контракты и каркас без переключения runtime.
question_mode/address_intentcontracts;- address debug contract;
- base recipe schema;
- semantic registry skeleton (P0 entities only).
Артефакты:
docs/ADDRESS/runs/<run_id>/M0_contracts_report.mdcontracts_diff.md
Subwave M1 — Classifier + Intent + Filter Pipeline
Цель: научить runtime распознавать address mode и извлекать фильтры.
- mode classifier;
- P0 intent resolver;
- filter extractor + validator;
- resolver subset (counterparty/contract/account/document_type/organization).
Артефакты:
intent_resolution_matrix.mdfilter_extraction_audit.jsonresolver_ambiguity_cases.md
Subwave M1.5 — L0 Hybrid Router Stabilization
Цель: стабилизировать входную интерпретацию на шумном вводе без раздувания словарей.
- LLM-first decompose в строгий JSON-контракт;
- deterministic fallback (корни/подстроки, парсинг дат и счетов, шумоочистка);
- режим
shadow(без влияния на финальный ответ) и сбор trace; - переход в
soft-enableтолько после прохождения регрессии.
Артефакты:
llm_router_shadow_report.jsonfallback_trigger_audit.mdnoisy_input_regression_results.md
Subwave M2 — Recipe + MCP Execution (Live-first)
Цель: связать intents с whitelist recipes и реальным MCP execution.
- recipe selector;
- address MCP executor;
- live-first policy;
- controlled fallback (no silent snapshot).
Артефакты:
recipe_selection_report.mdlive_call_inventory_address.jsonfallback_policy_audit.md
Subwave M3 — Factual Answer Composer + Debug
Цель: стабильный factual output в едином контракте.
FACTUAL_LIST/FACTUAL_SUMMARY/LIMITED_WITH_REASON;- compact output для текущей оболочки диалога;
- debug payload fields finalized.
Артефакты:
answer_contract_examples.mddebug_payload_samples/
Subwave M4 — Live Acceptance Rerun
Контрольный набор:
- кто должен нам на сегодня;
- кому должны мы;
- какие договоры не закрыты;
- остаток по 60 на дату;
- какие документы формируют остаток.
Acceptance gates:
- correct mode routing for P0 queries;
- non-empty factual outputs on expected-positive live cases;
false_factual_rate = 0;- no regression in deep-analysis path.
Артефакты:
chat_export_address_live.mdaddress_case_matrix.mdbefore_after_metrics.jsonrun_summary.json
Что делаем сразу
- Сегодня стартуем с
M0иM1(контракты + классификация/фильтры). - После этого закрываем
M1.5(shadow L0 router + регрессия на шумных вопросах). - И только затем поднимаем
M2для 2 первых intents (payables/receivables).
Progress Update (2026-04-02)
Статус по subwave:
M0: выполнено.M1: выполнено.M1.5: выполнено (LLM-first decompose + deterministic fallback, local provider).M2: выполнено для текущего production-набора intents.M3: выполнено для текущего factual/limited contract.M4: выполнено для текущего acceptance scope.
Подтверждающие финальные артефакты:
docs/ADDRESS/runs/2026-04-02_Address_Slang_Live_Stress_2026-04-02_12-57-27/run_summary.json(102/102, strict route pass).docs/ADDRESS/runs/2026-04-02_Address_Followup_Context_Chains_2026-04-02_19-15-Run5/run_summary.json(25/25, strict route pass).
Дальнейшее движение:
- новый цикл как
Step-4: domain expansion + nightly regression automation.