diff --git a/docs/ARCH/11 - architecture_turnaround/06 - phase_acceptance_matrix.md b/docs/ARCH/11 - architecture_turnaround/06 - phase_acceptance_matrix.md index 7425130..e34e118 100644 --- a/docs/ARCH/11 - architecture_turnaround/06 - phase_acceptance_matrix.md +++ b/docs/ARCH/11 - architecture_turnaround/06 - phase_acceptance_matrix.md @@ -20,12 +20,14 @@ Current status is tracked in: - [README.md](./README.md) - [21 - current_status_canon_2026-05-01.md](./21%20-%20current_status_canon_2026-05-01.md) +- [23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md](./23%20-%20current_execution_spine_and_semantic_control_gate_2026-05-05.md) Current reporting baseline: - Post-F Semantic Integrity Hardening: `99%`, operationally closed/regression gate. - Planner Autonomy Consolidation: `100%` for the declared phase83 slice. -- Active next pressure: broader Open-World Bounded Autonomy Breadth over unfamiliar 1C asks. +- Open-World Business Overview implementation breadth: `~99%` through Slice 25. +- Active next pressure: `Open-World Semantic Control Gate`, accepted module progress `~93%` after manual replay `assistant-stage1-EHMOy3lNFt`. ## Archived Execution Snapshot (2026-04-17) diff --git a/docs/ARCH/11 - architecture_turnaround/21 - current_status_canon_2026-05-01.md b/docs/ARCH/11 - architecture_turnaround/21 - current_status_canon_2026-05-01.md index d7aee09..34cc867 100644 --- a/docs/ARCH/11 - architecture_turnaround/21 - current_status_canon_2026-05-01.md +++ b/docs/ARCH/11 - architecture_turnaround/21 - current_status_canon_2026-05-01.md @@ -8,6 +8,20 @@ It exists to prevent stale percentage drift in planning discussions. If another document says `78%`, `87%`, `92%`, or `85%` for a module that is now closed, read that value as a historical snapshot unless this note explicitly repeats it as current. +## 2026-05-05 Overlay - EHMO Manual QA Gate + +The manual GUI replay `assistant-stage1-EHMOy3lNFt` changed the status wording. + +It did not reopen Post-F and it did not prove that the Open-World implementation breadth collapsed. It opened a new acceptance gate for semantic control under broad human-style dialogue pressure. + +From this point forward: + +- `~99%` for Open-World means implementation breadth through `Business Overview Missing Proof Ledger`; +- accepted module progress is `~93%` until the new `Open-World Semantic Control Gate` is fixed and rerun; +- the active work is control-gate hardening, not immediate expansion into more proof families. + +For the current execution spine, read `23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md`. + ## Current Module Map - `Post-F Semantic Integrity Hardening`: `99%`, operationally closed as a hardening slice and now used as a regression gate. @@ -39,8 +53,9 @@ If another document says `78%`, `87%`, `92%`, or `85%` for a module that is now - Completed active slice: `Business Overview Document/Account Activity Profile Bridge`: business overview now executes the reviewed `document_type_and_account_section_profile` recipe and surfaces confirmed operational activity mix without claiming process quality, accounting correctness, or complete 1C activity coverage. - Completed active slice: `Business Overview Counterparty/Contract Profile Bridge`: business overview now executes reviewed `counterparty_population_and_roles` and `contract_usage_overview` recipes, surfacing active counterparty role split and contract usage without claiming CRM quality, counterparty due diligence, legal completeness, or contract-risk. - Completed active slice: `Business Overview Missing Proof Ledger`: business overview now records machine-readable hard proof gaps for accounting profit/margin, due-date debt aging, inventory reserve/liquidation quality, and vendor/procurement quality, distinguishing proxy-only evidence from reviewed routes that are not wired yet. -- Next active slice: continue breadth into exact company-wide accounting profit/margin, real due-date debt aging, confirmed inventory reserve/write-off/liquidation evidence, and broader unfamiliar 1C route families only where reviewed evidence routes exist. -- Active module progress: `~99% (Open-World Bounded Autonomy Breadth)`. +- Implementation breadth: `~99% (Open-World Bounded Autonomy Breadth through Slice 25)`. +- Next active slice: `Open-World Semantic Control Gate`, covering garbage-anchor protection, business-overview continuation, intent dominance, frame hygiene, counterparty/organization arbitration, and final-summary answer shape. +- Active module progress: `~93% (Open-World Bounded Autonomy Breadth, active slice: Semantic Control Gate)`. ## Reporting Rule @@ -48,12 +63,16 @@ Use these labels when reporting progress: - `Прогресс модуля: 99% (Post-F Semantic Integrity Hardening, operationally closed/regression gate)` when discussing the Post-F slice itself. - `Прогресс модуля: 100% (Planner Autonomy Consolidation, declared phase83 slice closed)` when discussing the planner-autonomy slice that was just completed. -- `Прогресс модуля: X% (Open-World Bounded Autonomy Breadth, active slice: )` for new breadth work after this point. +- `Прогресс модуля: 93% (Open-World Bounded Autonomy Breadth, active slice: Semantic Control Gate)` while discussing current module closure after the EHMO manual replay. +- `Open-World Business Overview implementation breadth: ~99%, semantic acceptance gate still open` when discussing only the already wired Slice 25 breadth. +- `Прогресс модуля: X% (Open-World Bounded Autonomy Breadth, active slice: )` for later breadth work after the Semantic Control Gate is accepted. Do not report Post-F as `78%`, `87%`, or `92%`. Do not report Planner Autonomy as still open unless the discussion is about the next broader module, not the declared phase83 closure target. +Do not report Open-World as simply `99% closed` until the EHMO-derived semantic control gate passes replay review. + ## What Is Actually Closed Post-F closed the acute semantic-integrity rescue layer: @@ -77,6 +96,7 @@ The project is not yet a universal arbitrary-1C agent. Remaining work belongs to the next breadth module: +- close the `Open-World Semantic Control Gate` opened by `assistant-stage1-EHMOy3lNFt`; - extend `business_overview` beyond money-flow/activity, customer and supplier concentration, document/account-section activity mix, counterparty role split, contract usage, yearly operating-flow dynamics, explicit profit/margin wording boundaries, explicit debt due-date wording boundaries, explicit inventory reserve/liquidation wording boundaries, explicit supplier/procurement-quality wording boundaries, explicit-period VAT/tax, as-of-date debt position, open-settlement concentration, contract-date debt age, debt staleness-risk proxy, as-of-date inventory position, trading-margin proxy, sales-to-stock inventory proxy, warehouse staleness-risk proxy, and the missing-proof ledger into separately proven exact accounting profit/margin, due-date debt aging/overdue, confirmed vendor-risk/procurement-quality analysis, and confirmed reserve/write-off/liquidation inventory evidence families; - broader dynamic schema traversal for unfamiliar 1C asks; - more primitive descriptors where live evidence proves a real gap; @@ -98,10 +118,11 @@ For current planning, read: 1. `README.md` 2. this document -3. `22 - open_world_bounded_autonomy_breadth_2026-05-01.md` -4. `20 - planner_autonomy_consolidation_2026-05-01.md` -5. `19 - inventory_stock_open_world_breadth_proof_2026-05-01.md` -6. `17 - post_f_semantic_integrity_hardening_2026-04-23.md` -7. `16 - data_need_graph_and_open_world_mcp_plan_2026-04-22.md` +3. `23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md` +4. `22 - open_world_bounded_autonomy_breadth_2026-05-01.md` +5. `20 - planner_autonomy_consolidation_2026-05-01.md` +6. `19 - inventory_stock_open_world_breadth_proof_2026-05-01.md` +7. `17 - post_f_semantic_integrity_hardening_2026-04-23.md` +8. `16 - data_need_graph_and_open_world_mcp_plan_2026-04-22.md` Documents `01` through `15` remain valuable, but mostly as the historical architecture trail. diff --git a/docs/ARCH/11 - architecture_turnaround/22 - open_world_bounded_autonomy_breadth_2026-05-01.md b/docs/ARCH/11 - architecture_turnaround/22 - open_world_bounded_autonomy_breadth_2026-05-01.md index 485707c..f8dc277 100644 --- a/docs/ARCH/11 - architecture_turnaround/22 - open_world_bounded_autonomy_breadth_2026-05-01.md +++ b/docs/ARCH/11 - architecture_turnaround/22 - open_world_bounded_autonomy_breadth_2026-05-01.md @@ -728,3 +728,56 @@ Local validation is accepted for this slice: - `npm.cmd run build`: passed. Graphify rebuild after Slice 25 code/doc sync: `6070 nodes`, `13233 edges`, `135 communities`. + +## Slice 26 - Open-World Semantic Control Gate + +This slice is opened by the manual GUI replay `assistant-stage1-EHMOy3lNFt`. + +Slice 25 made the business overview broad and evidence-aware. EHMO then proved that breadth alone is not enough: in a long mixed human conversation, the assistant can still answer from the wrong semantic frame even when many individual routes are implemented. + +This is a control-gate slice, not a new proof-family expansion. + +The replay showed that exact canaries still work in several places, including VAT continuity, selected-item inventory/provenance, open-scope value-flow, and SVK-grounded chains. The failures are concentrated around semantic control: + +- pseudo-entities and garbage anchors can be grounded from phrases like "by these data", "for", "overall", or generic follow-up nouns; +- business-overview follow-ups can fall into generic living-chat help or stale memory recap instead of bounded analyst synthesis; +- explicit VAT wording can lose to unrelated inventory wording when the word "position" is present; +- explicit date switches can be ignored by stale selected-object or period carryover; +- counterparty pivots can mix organization totals and counterparty totals; +- metadata, field, and final-summary questions can be hijacked by stale exact lanes; +- user-facing answers can be underpowered, generic, or shaped like internal capability help instead of business analysis. + +The active work for this slice is: + +1. entity and anchor hygiene; +2. business overview continuation and synthesis; +3. intent dominance and wrong-lane prevention; +4. frame reset and stale carryover policy; +5. counterparty/organization arbitration after pivots; +6. final-summary answer lane and answer-shape control. + +Acceptance for this slice requires the EHMO-derived critical subset to be rerun and semantically reviewed before the fat manual GUI pack is treated as accepted. + +Suggested first subset: + +- `003` +- `005` +- `008` +- `013` +- `020` +- `021` +- `022` +- `023` +- `024` +- `039` +- `040` +- `041` +- `046` +- `056` +- `061` + +Current status: + +- implementation breadth through Slice 25: `~99%`; +- accepted Open-World module progress after EHMO: `~93%`; +- exact P&L, real due-date debt aging, reserve/write-off/liquidation evidence, and vendor-risk engines stay queued behind this semantic gate. diff --git a/docs/ARCH/11 - architecture_turnaround/23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md b/docs/ARCH/11 - architecture_turnaround/23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md new file mode 100644 index 0000000..9acb548 --- /dev/null +++ b/docs/ARCH/11 - architecture_turnaround/23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md @@ -0,0 +1,157 @@ +# 23 - Current Execution Spine And Semantic Control Gate (2026-05-05) + +## Purpose + +This note is the current planning spine after the large manual GUI replay `assistant-stage1-EHMOy3lNFt`. + +It exists because several valid plans are now layered on top of each other: + +- Post-F semantic integrity hardening; +- planner autonomy and catalog alignment; +- open-world bounded autonomy breadth; +- business overview evidence fusion; +- manual QA pressure from complex human-style conversations. + +The goal of this document is to keep one shared answer to four questions: + +- what the final product direction is; +- what is actually closed; +- what the latest replay changed; +- what must happen next before the current module can be called accepted. + +## Final Product Direction + +The target is not a hardcoded 1C connector and not a pile of one-off route fixes. + +The target is a bounded MCP-first 1C analyst assistant where: + +- the neural layer understands the user's business need; +- the data-need graph maps that need into candidate evidence families; +- the MCP catalog and route fabric expose reviewed traversal options; +- the planner chooses among reviewed routes instead of relying on hardcoded prompt glue; +- dynamic schema traversal grows the reachable surface when evidence is safely discoverable; +- truth gates prevent the assistant from presenting proxy or inferred evidence as confirmed accounting fact; +- follow-up context keeps the right organization, counterparty, period, selected object, and lane without stale contamination. + +In short: the LLM should behave like a bounded analyst brain over MCP routes, not like a free-form chatbot and not like a deterministic paperclip. + +## What Is Closed + +The following blocks remain closed and should be used as regression gates: + +- `Post-F Semantic Integrity Hardening`: operationally closed at `99%` as a hardening slice. +- `Planner Autonomy Consolidation`: closed at `100%` for the declared phase83 planner-brain slice. +- `Inventory Stock Open-World Breadth Proof`: closed at `100%` for the declared inventory-stock scenario pack. +- `Open-World Business Overview` implementation breadth through Slice 25: implemented and locally/live validated for the declared fact families. + +The important nuance is that implementation breadth and semantic acceptance are no longer the same number. + +Before the EHMO manual replay, `~99%` was a fair implementation-breadth number for the active Open-World slice. After EHMO, it must not be reported as accepted closure. It means "most declared evidence families are wired"; it does not mean "human-style mixed dialogue is semantically clean under pressure." + +## What EHMO Changed + +The manual GUI replay `assistant-stage1-EHMOy3lNFt` did not invalidate the architecture. + +It proved two things at the same time: + +- many exact canaries and supported routes still work under a very aggressive mixed conversation; +- the current assistant can still lose semantic control on complex human follow-ups, pseudo-anchors, intent arbitration, and final synthesis questions. + +Therefore EHMO opens a new acceptance gate: `Open-World Semantic Control Gate`. + +This gate is not a request to tune the assistant for every weird question in that replay. The replay is intentionally harsh and sometimes unrealistic. Its value is that it exposes systemic failure classes that normal users can still hit in milder wording. + +## Current Status + +Current status should be reported as: + +- implementation breadth: `~99%` for Open-World Business Overview through Slice 25; +- accepted module progress: `~93% (Open-World Bounded Autonomy Breadth, active slice: Semantic Control Gate)`. + +This is not a regression from `99%` to `93%`. It is a metric split: + +- `99%` describes wired breadth; +- `93%` describes closure confidence after a broad human semantic replay found control-gate defects. + +## Failure Classes To Fix + +The next work must address classes, not individual questions: + +- Garbage-anchor guard: never treat service words, interrogative tails, or generic nouns such as "documents", "for", "overall", "by these data" as newly grounded counterparties or selected objects. +- Business-overview continuation guard: questions like "by these data", "can we say", "assemble an audit", "what is confirmed", "proxy", "profit", "margin", "liquidity", "overdue", or "risk" should continue the bounded overview/synthesis lane when an organization frame exists. +- Intent dominance: explicit `VAT` must dominate inventory wording such as "position"; metadata/field questions must dominate stale exact document or value-flow lanes; paired debt questions must not collapse into a one-sided answer. +- Frame hygiene: explicit topic switches should clear stale selected object and stale date scope while keeping the valid root organization when appropriate. +- Counterparty-vs-organization separation: after grounding a counterparty such as SVK, totals and document/movement follow-ups must not masquerade organization totals as counterparty totals. +- Final-summary lane: closing questions such as "so what do we know", "what is missing", or "what should we check next" should summarize confirmed/proxy/missing evidence without forcing a fresh wrong 1C lookup. +- Answer-shape control: user-facing answers must not expose route ids, internal capability labels, or debug garbage, and must answer the business question before explaining boundaries. + +## Do Not Do + +Do not repair the current situation by: + +- hardcoding all EHMO questions one by one; +- broadening unsupported business claims just to make answers sound confident; +- treating saved autorun questions as proof that an AGENT replay passed; +- expanding into exact P&L, due-date aging, reserve/liquidation, or vendor-risk engines before the semantic control gate is stable; +- hiding behind green unit tests when the human-readable answer is wrong. + +## Next Work Units + +The next implementation pass should be cut into these work units: + +1. `Semantic Control Gate W1 - entity and anchor hygiene` +2. `Semantic Control Gate W2 - business overview continuation and synthesis` +3. `Semantic Control Gate W3 - intent dominance and wrong-lane prevention` +4. `Semantic Control Gate W4 - frame reset and stale carryover policy` +5. `Semantic Control Gate W5 - counterparty/organization arbitration after pivots` +6. `Semantic Control Gate W6 - final-summary answer lane` + +Each work unit should add focused local tests and then be validated against the EHMO-derived semantic subset. + +## Acceptance Gate + +The current module can move from `~93%` toward closure only after: + +- the EHMO-derived critical subset is rerun and semantically reviewed; +- old canaries remain green: Post-F, phase83, inventory selected-object, VAT continuity, SVK document/movement chains; +- broad business overview still answers from confirmed/proxy/missing evidence rather than unsupported confidence; +- no stale organization/counterparty/date/selected-object contamination appears in the reviewed subset; +- no internal route/debug/capability garbage leaks into user-facing answers; +- the full fat manual GUI pack is either clean enough for acceptance or the remaining defects are explicitly classified as outside the declared contour. + +Suggested EHMO subset for the first hardening loop: + +- `003`, `005`, `008`, `013`, `020`, `021`, `022`, `023`, `024`, `039`, `040`, `041`, `046`, `056`, `061`. + +## Current Artifacts + +Manual QA pack prepared for GUI: + +- `docs/orchestration/manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json` +- saved autorun: `llm_normalizer/data/autorun_generators/saved_sessions/assistant_saved_session_20260505141816_gen-mq05051418-fat99.json` +- eval case: `llm_normalizer/data/eval_cases/assistant_autogen_saved_user_sessions_20260505141816_gen-mq05051418-fat99.json` + +Manual runtime run reviewed as the gate opener: + +- run id: `assistant-stage1-EHMOy3lNFt` +- runtime case set: `llm_normalizer/data/eval_cases/assistant_saved_session_runtime_job-eUovXbfqU0.json` +- report: `llm_normalizer/reports/assistant-stage1-EHMOy3lNFt.md` +- session: `llm_normalizer/data/assistant_sessions/assistant-stage1-EHMOy3lNFt-SAVED-001.json` + +Graphify snapshot at this status cut: + +- `6070 nodes` +- `13233 edges` +- `135 communities` + +## Reporting Rule + +Until the semantic control gate is accepted, use: + +`Прогресс модуля: 93% (Open-World Bounded Autonomy Breadth, active slice: Semantic Control Gate)` + +If discussing only the already wired business-overview breadth, say: + +`Open-World Business Overview implementation breadth: ~99%, semantic acceptance gate still open` + +Do not collapse those two statements into one number. diff --git a/docs/ARCH/11 - architecture_turnaround/README.md b/docs/ARCH/11 - architecture_turnaround/README.md index 66059e2..323c166 100644 --- a/docs/ARCH/11 - architecture_turnaround/README.md +++ b/docs/ARCH/11 - architecture_turnaround/README.md @@ -40,6 +40,7 @@ This package answers the next question: 20. [20 - planner_autonomy_consolidation_2026-05-01.md](./20%20-%20planner_autonomy_consolidation_2026-05-01.md) 21. [21 - current_status_canon_2026-05-01.md](./21%20-%20current_status_canon_2026-05-01.md) 22. [22 - open_world_bounded_autonomy_breadth_2026-05-01.md](./22%20-%20open_world_bounded_autonomy_breadth_2026-05-01.md) +23. [23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md](./23%20-%20current_execution_spine_and_semantic_control_gate_2026-05-05.md) ## Current Status Snapshot (2026-05-05) @@ -74,8 +75,11 @@ Status canon for planning: - The current completed breadth slice is `Business Overview Document/Account Activity Profile Bridge`: business overview now executes the reviewed document-type/account-section profile and can surface confirmed operational activity mix without claiming process quality, accounting correctness, or full 1C coverage. - The current completed breadth slice is `Business Overview Counterparty/Contract Profile Bridge`: business overview now executes reviewed counterparty population/roles and contract usage profiles, while CRM quality, counterparty due diligence, legal completeness, and contract-risk remain unclaimed. - The current completed breadth slice is `Business Overview Missing Proof Ledger`: business overview now records hard remaining proof gaps as machine-readable `missing_proof_families`, separating proxy-only evidence from reviewed routes that are not wired yet. -- The next active breadth slice continues breadth into exact company-wide accounting profit/margin, real due-date debt aging, confirmed reserve/write-off/liquidation inventory evidence, and broader unfamiliar 1C route families without relaxing truth boundaries. +- The `assistant-stage1-EHMOy3lNFt` manual GUI replay opened the next acceptance gate: `Open-World Semantic Control Gate`. +- The `~99%` Open-World number now means implementation breadth through Slice 25, not accepted semantic closure under broad human dialogue pressure. +- The next active breadth slice is semantic control rather than new proof-family expansion: garbage-anchor protection, business-overview continuation, intent dominance, frame hygiene, counterparty/organization arbitration, and final-summary answer shape. - The short source of truth for status wording is [21 - current_status_canon_2026-05-01.md](./21%20-%20current_status_canon_2026-05-01.md). +- The current execution spine after EHMO is [23 - current_execution_spine_and_semantic_control_gate_2026-05-05.md](./23%20-%20current_execution_spine_and_semantic_control_gate_2026-05-05.md). It now documents a turnaround that is already operational in code, already materially past the acute regression breakpoint, and already moved through bounded MCP autonomy, Post-F hardening, inventory breadth proof, and the declared Planner Autonomy slice: @@ -139,7 +143,8 @@ Current honest status: - pre-multidomain readiness: `~90%` - bounded-autonomy foundation readiness: `~89%` - open-world bounded-autonomy readiness: `~87%` -- active Open-World Bounded Autonomy Breadth progress: `~99%`, with business-overview evidence fusion, the reviewed `business_overview` catalog/data-need/planner route-fabric slice, the fresh multi-probe runtime bridge, the explicit-period VAT/tax fact-family bridge, the explicit-period debt-position bridge, the explicit-date inventory-position bridge, the open-settlement quality bridge accepted by live semantic replay, selected-item profitability bridged by local semantic/runtime regression tests, contract-date debt age bridged locally, debt staleness-risk proxy bridged locally, debt due-date boundary arbitration bridged locally, inventory reserve/liquidation boundary arbitration bridged locally, supplier/procurement-quality boundary arbitration bridged locally, supplier concentration proxy bridged locally, document/account-section activity profile bridged locally, counterparty population/roles and contract usage profiles bridged locally, yearly operating-flow proxy bridged locally, earnings/best-year wording arbitration bridged locally, profit/margin wording boundary arbitration bridged locally, analyst synthesis added to business-overview answer drafting, company-period trading margin proxy bridged locally, inventory sales-to-stock proxy bridged locally, inventory staleness-risk proxy bridged locally, gap-specific answer shaping bridged locally, and missing proof families recorded as runtime evidence ledger; exact accounting profit/margin, true due-date debt aging/overdue, confirmed vendor-risk/procurement-quality analysis, and confirmed reserve/write-off/liquidation inventory evidence are still pending +- active Open-World Bounded Autonomy Breadth implementation breadth: `~99%`, with business-overview evidence fusion, the reviewed `business_overview` catalog/data-need/planner route-fabric slice, the fresh multi-probe runtime bridge, the explicit-period VAT/tax fact-family bridge, the explicit-period debt-position bridge, the explicit-date inventory-position bridge, the open-settlement quality bridge accepted by live semantic replay, selected-item profitability bridged by local semantic/runtime regression tests, contract-date debt age bridged locally, debt staleness-risk proxy bridged locally, debt due-date boundary arbitration bridged locally, inventory reserve/liquidation boundary arbitration bridged locally, supplier/procurement-quality boundary arbitration bridged locally, supplier concentration proxy bridged locally, document/account-section activity profile bridged locally, counterparty population/roles and contract usage profiles bridged locally, yearly operating-flow proxy bridged locally, earnings/best-year wording arbitration bridged locally, profit/margin wording boundary arbitration bridged locally, analyst synthesis added to business-overview answer drafting, company-period trading margin proxy bridged locally, inventory sales-to-stock proxy bridged locally, inventory staleness-risk proxy bridged locally, gap-specific answer shaping bridged locally, and missing proof families recorded as runtime evidence ledger; exact accounting profit/margin, true due-date debt aging/overdue, confirmed vendor-risk/procurement-quality analysis, and confirmed reserve/write-off/liquidation inventory evidence are still pending +- active Open-World Bounded Autonomy Breadth accepted-module progress: `~93%`, because the EHMO manual GUI replay opened the `Open-World Semantic Control Gate` before closure - Post-F semantic integrity module progress: `~99%` operationally closed, with remaining risk now treated as next-slice discovery rather than an open blocker inside the closed slice - active inventory-stock breadth slice progress: `100%` for the declared scenario pack, not for arbitrary inventory questions - Planner Autonomy Consolidation progress: `100%` for the declared module, with catalog-fabric, value-flow arbitration, lifecycle bounded inference, broad-evaluation bridge, inventory catalog templates, inventory runtime-boundary honesty, exact inventory recipe bridging, unambiguous metadata-surface lane inference, catalog chain-template scoring, structured chain-match contract exposure, runtime/debug propagation, subject-aware bidirectional comparison arbitration, structured catalog-alignment verdicts, representative alignment regression guard, catalog-alignment reason-code telemetry, explicit `alignment_status` propagation, truth-harness/acceptance-matrix surfacing, soft divergence warning, `catalog_alignment_ok` acceptance invariant, step-level expected catalog-alignment assertions, phase66 and phase32 spec alignment expectations, AGENT source-catalog surfacing, generated phase83 mixed planner-brain replay spec, checked-source user-facing error sanitation, surface-grounded catalog promotion, and guarded live phase83 acceptance validated. Broader unfamiliar 1C asks are now next-module breadth work rather than an open blocker inside this declared slice diff --git a/docs/orchestration/manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json b/docs/orchestration/manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json new file mode 100644 index 0000000..9692974 --- /dev/null +++ b/docs/orchestration/manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json @@ -0,0 +1,418 @@ +{ + "schema_version": "manual_gui_autorun_pack_v1", + "scenario_id": "manual_qa_open_world_breadth_99_fat_gui_pack_20260505", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "created_at": "2026-05-05T14:18:16+03:00", + "status": "manual_runtime_run_completed_semantic_control_gate_open", + "latest_manual_runtime_review": { + "run_id": "assistant-stage1-EHMOy3lNFt", + "runtime_case_set": "llm_normalizer/data/eval_cases/assistant_saved_session_runtime_job-eUovXbfqU0.json", + "report": "llm_normalizer/reports/assistant-stage1-EHMOy3lNFt.md", + "review_status": "semantic_control_gate_opened_not_accepted", + "critical_failure_clusters": [ + "garbage_anchor_and_pseudo_entity_grounding", + "business_overview_followup_continuation_break", + "intent_dominance_wrong_lane_selection", + "stale_date_or_selected_object_carryover", + "counterparty_vs_organization_frame_mixing", + "metadata_or_final_summary_hijacked_by_exact_lanes", + "underpowered_or_internalized_user_facing_answer_shape" + ] + }, + "domain": "open_world_bounded_autonomy_breadth_manual_qa", + "architecture_phase": "turnaround_11_open_world_bounded_autonomy_breadth_99", + "manual_review_required": true, + "purpose": "Большой ручной GUI-автопрогон для проверки текущих Open-World/Business Overview наработок, контекстной целостности, stale-scope защиты, Post-F/phase83 canaries и старых детерминированных маршрутов перед закрытием этапа.", + "review_order": [ + "Сначала читать user-facing ответы как бизнес-пользователь.", + "Проверять, отвечает ли ассистент прямо, полезно и без технического мусора.", + "Отдельно отмечать stale scope: организация, контрагент, период, выбранный объект.", + "Отдельно отмечать, где ответ честно разделяет подтвержденное, proxy/inference и неизвестное.", + "Только после смысловой оценки смотреть debug/маршруты." + ], + "coverage": [ + "business_overview evidence fusion", + "tax/VAT explicit period and all-time carryover boundary", + "debt position and due-date/overdue proof boundary", + "inventory position and reserve/liquidation proof boundary", + "supplier concentration and vendor-risk proof boundary", + "counterparty population and contract usage profile", + "document/account-section activity profile", + "yearly operating-flow proxy and best-year wording", + "profit/margin wording boundary and analyst synthesis", + "counterparty pivot from organization overview", + "SVK value-flow documents/movements chain", + "Post-F stale scope canaries", + "phase83 planner-brain catalog alignment canaries", + "selected-object wording canaries", + "off-domain smalltalk guard" + ], + "steps": [ + { + "step_id": "001_smalltalk_sanity", + "question": "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст", + "semantic_tags": ["human_answer", "meta_smalltalk", "context_guard"], + "review_focus": "Ассистент должен ответить нормально и не начать преждевременно искать данные 1С." + }, + { + "step_id": "002_business_overview_2020_full", + "question": "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать.", + "semantic_tags": ["business_overview", "organization_scope", "explicit_period", "analyst_synthesis"], + "review_focus": "Проверить полноту бизнес-обзора и честность границ: нетто не должно выдаваться за прибыль." + }, + { + "step_id": "003_money_breakdown", + "question": "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020.", + "semantic_tags": ["business_overview", "money_flow", "top_customer", "top_supplier", "followup_reuse"], + "review_focus": "Должен сохраняться scope ООО Альтернатива Плюс и период 2020." + }, + { + "step_id": "004_best_year_all_time", + "question": "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет.", + "semantic_tags": ["business_overview", "all_time_followup", "best_year", "profit_boundary"], + "review_focus": "Проверить сброс периода 2020 и честную формулировку proxy по оборотам." + }, + { + "step_id": "005_profit_margin_boundary", + "question": "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает.", + "semantic_tags": ["business_overview", "profit_margin_boundary", "missing_proof_families"], + "review_focus": "Ответ не должен фантазировать exact P&L; должен назвать missing proof families." + }, + { + "step_id": "006_customer_concentration", + "question": "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?", + "semantic_tags": ["business_overview", "customer_concentration", "counterparty_population"], + "review_focus": "Проверить полезность концентрационного анализа и привязку к подтвержденным строкам." + }, + { + "step_id": "007_supplier_concentration", + "question": "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?", + "semantic_tags": ["business_overview", "supplier_concentration", "vendor_risk_boundary"], + "review_focus": "Можно давать concentration proxy, но нельзя выдавать vendor-risk как подтвержденный due diligence." + }, + { + "step_id": "008_vat_2020", + "question": "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?", + "semantic_tags": ["business_overview", "vat", "explicit_period", "tax_boundary"], + "review_focus": "VAT-период должен быть 2020, без materialization gap и без выдуманного налогового заключения." + }, + { + "step_id": "009_vat_all_time_no_carryover", + "question": "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию.", + "semantic_tags": ["business_overview", "vat", "all_time_followup", "stale_period_guard"], + "review_focus": "Должен сброситься явный налоговый срез 2020." + }, + { + "step_id": "010_debt_as_of_2020", + "question": "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?", + "semantic_tags": ["business_overview", "debt_position", "explicit_as_of_date", "open_settlements"], + "review_focus": "Должен быть as-of-date debt snapshot, а не all-time долг." + }, + { + "step_id": "011_overdue_boundary", + "question": "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно.", + "semantic_tags": ["business_overview", "debt_due_date_boundary", "proof_boundary"], + "review_focus": "Нельзя называть просрочкой без сроков оплаты/due dates." + }, + { + "step_id": "012_debt_all_time_no_carryover", + "question": "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию.", + "semantic_tags": ["business_overview", "all_time_followup", "stale_debt_snapshot_guard"], + "review_focus": "Должен не протечь snapshot 2020-12-31." + }, + { + "step_id": "013_inventory_date", + "question": "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе.", + "semantic_tags": ["business_overview", "inventory_position", "explicit_date", "inventory_boundary"], + "review_focus": "Нужен складской факт на дату без превращения его в полное здоровье бизнеса." + }, + { + "step_id": "014_inventory_reserve_boundary", + "question": "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?", + "semantic_tags": ["business_overview", "inventory_reserve_boundary", "missing_proof_families"], + "review_focus": "Нельзя выдавать reserve/liquidation evidence без подтвержденных маршрутов." + }, + { + "step_id": "015_inventory_all_time_no_carryover", + "question": "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад.", + "semantic_tags": ["business_overview", "all_time_followup", "stale_inventory_snapshot_guard"], + "review_focus": "Проверить сброс explicit inventory date." + }, + { + "step_id": "016_contract_counterparty_profile", + "question": "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?", + "semantic_tags": ["business_overview", "counterparty_population", "contract_usage_profile"], + "review_focus": "Должен быть профиль, а не generic metadata ответ." + }, + { + "step_id": "017_document_activity_profile", + "question": "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?", + "semantic_tags": ["business_overview", "document_activity_profile", "account_section_profile"], + "review_focus": "Проверить, что ответ не превращается в технический список route/debug." + }, + { + "step_id": "018_business_audit_synthesis", + "question": "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками.", + "semantic_tags": ["business_overview", "analyst_synthesis", "human_answer_quality"], + "review_focus": "Нужен взрослый аналитический ответ, а не короткий высер или debug." + }, + { + "step_id": "019_pivot_find_svk", + "question": "Теперь резко переключаемся: найди в 1С контрагента СВК.", + "semantic_tags": ["entity_resolution", "counterparty_pivot", "stale_scope_guard"], + "review_focus": "Должен смениться focus с организации на контрагента, без залипания Альтернативы как контрагента." + }, + { + "step_id": "020_svk_incoming_2020", + "question": "Сколько получили по нему за 2020 год?", + "semantic_tags": ["value_flow", "incoming_value_flow", "followup_anchor", "explicit_period"], + "review_focus": "Scope: выбранный СВК как контрагент, период 2020." + }, + { + "step_id": "021_svk_outgoing_2020", + "question": "А теперь сколько заплатили?", + "semantic_tags": ["value_flow", "outgoing_value_flow", "followup_reuse", "date_carryover"], + "review_focus": "Проверить payout switch и carryover периода/контрагента." + }, + { + "step_id": "022_svk_net", + "question": "А какое нетто по СВК: сколько получили минус сколько заплатили?", + "semantic_tags": ["value_flow_comparison", "net_value_flow", "followup_reuse"], + "review_focus": "Нетто должно быть по СВК, не по организации в целом." + }, + { + "step_id": "023_svk_documents", + "question": "А по документам СВК что видно?", + "semantic_tags": ["document_evidence", "counterparty_followup", "document_pivot"], + "review_focus": "Переход value-flow -> documents не должен терять selected counterparty." + }, + { + "step_id": "024_svk_movements", + "question": "А по движениям?", + "semantic_tags": ["movement_evidence", "document_pivot", "followup_reuse"], + "review_focus": "Движения должны относиться к текущему СВК/document context." + }, + { + "step_id": "025_svk_all_time", + "question": "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод.", + "semantic_tags": ["counterparty_all_time", "stale_period_guard", "grounded_summary"], + "review_focus": "Период 2020 должен сброситься, контрагент СВК сохраниться." + }, + { + "step_id": "026_scope_sanity", + "question": "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески.", + "semantic_tags": ["scope_integrity", "human_answer_quality", "stale_scope_guard"], + "review_focus": "Нужна ясная человеческая проверка scope без технического мусора." + }, + { + "step_id": "027_zhukovka_docs", + "question": "СВК закончили. Новая тема: покажи документы по Жуковке 51.", + "semantic_tags": ["post_f_canary", "document_evidence", "topic_pivot"], + "review_focus": "Переход на Жуковку не должен тащить СВК." + }, + { + "step_id": "028_zhukovka_payments", + "question": "Хорошо, а теперь платежи по нему тоже покажи.", + "semantic_tags": ["post_f_canary", "value_flow", "pronoun_followup"], + "review_focus": "Местоимение должно ссылаться на Жуковку 51." + }, + { + "step_id": "029_zhukovka_contracts", + "question": "А по нему договоры?", + "semantic_tags": ["post_f_canary", "contract_evidence", "pronoun_followup"], + "review_focus": "Контекст Жуковки должен сохраниться." + }, + { + "step_id": "030_zhukovka_documents_again", + "question": "А по нему документы?", + "semantic_tags": ["post_f_canary", "document_evidence", "pronoun_followup"], + "review_focus": "Повторный pivot documents не должен ломать focus." + }, + { + "step_id": "031_zhukovka_year_switch", + "question": "А за 2021?", + "semantic_tags": ["post_f_canary", "year_switch", "followup_reuse"], + "review_focus": "Период должен смениться на 2021, объект Жуковка сохраниться." + }, + { + "step_id": "032_open_scope_incoming_2020", + "question": "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?", + "semantic_tags": ["phase83_canary", "open_scope_total", "organization_clarification"], + "review_focus": "Если организация неоднозначна, корректное уточнение не баг." + }, + { + "step_id": "033_choose_altplus", + "question": "По ООО Альтернатива Плюс.", + "semantic_tags": ["phase83_canary", "organization_scope", "clarification_answer"], + "review_focus": "Должен принять уточненную организацию и ответить по 2020." + }, + { + "step_id": "034_altplus_all_time_value_flow", + "question": "Понял, тогда за все время.", + "semantic_tags": ["phase83_canary", "all_time_followup", "organization_scope"], + "review_focus": "Организация сохраняется, период сбрасывается." + }, + { + "step_id": "035_altplus_in_out_2020", + "question": "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?", + "semantic_tags": ["phase83_canary", "value_flow_comparison", "explicit_period"], + "review_focus": "Сравнение входящих/исходящих по организации, не по контрагенту." + }, + { + "step_id": "036_altplus_in_out_2021", + "question": "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?", + "semantic_tags": ["phase83_canary", "year_switch", "value_flow_comparison"], + "review_focus": "Период меняется на 2021." + }, + { + "step_id": "037_altplus_top_customer_2020", + "question": "И кто больше всего принес денег этой организации в 2020 году?", + "semantic_tags": ["phase83_canary", "value_flow_ranking", "top_customer"], + "review_focus": "Ranking по клиентам организации за 2020." + }, + { + "step_id": "038_altplus_top_customer_2021", + "question": "А в 2021 году?", + "semantic_tags": ["phase83_canary", "year_switch", "value_flow_ranking"], + "review_focus": "Контекст top customer сохраняется, год меняется." + }, + { + "step_id": "039_metadata_counterparty_catalogs", + "question": "Какие справочники 1С есть по контрагентам?", + "semantic_tags": ["phase83_canary", "catalog_metadata_surface"], + "review_focus": "Metadata lane должен ответить полезно, не ломая бизнес-контекст." + }, + { + "step_id": "040_metadata_drilldown_neutral", + "question": "давай дальше", + "semantic_tags": ["phase83_canary", "neutral_followup", "catalog_drilldown"], + "review_focus": "Нейтральный follow-up должен продолжить metadata drilldown, а не предыдущий деньги/Жуковку." + }, + { + "step_id": "041_metadata_document_fields", + "question": "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?", + "semantic_tags": ["metadata_surface", "dynamic_schema_traversal", "route_planning"], + "review_focus": "Проверить полезность маршрутизации без жесткой скрепки." + }, + { + "step_id": "042_profit_route_meta", + "question": "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?", + "semantic_tags": ["meta_route_reasoning", "profit_boundary", "human_answer_quality"], + "review_focus": "Можно объяснить человечески, но без raw route ids/debug." + }, + { + "step_id": "043_off_domain_guard", + "question": "А чем капибара отличается от утки?", + "semantic_tags": ["off_domain_living_chat", "stale_replay_forbidden"], + "review_focus": "Не должен тащить бухгалтерский context в обычный вопрос." + }, + { + "step_id": "044_vat_feb_2017", + "question": "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017.", + "semantic_tags": ["vat_canary", "explicit_period", "post_f_manual_failure"], + "review_focus": "Ключевой VAT canary: период февраль 2017 не должен схлопнуться в 2000-01-01/materialization gap." + }, + { + "step_id": "045_vat_dec_2020", + "question": "А сколько НДС в налоговую за декабрь 2020?", + "semantic_tags": ["vat_canary", "explicit_period", "period_switch"], + "review_focus": "Период должен переключиться на декабрь 2020." + }, + { + "step_id": "046_vat_metadata", + "question": "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?", + "semantic_tags": ["post_f_canary", "vat_metadata", "dynamic_schema_traversal"], + "review_focus": "Metadata answer should be useful and not block VAT facts incorrectly." + }, + { + "step_id": "047_altplus_movements_2020", + "question": "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год.", + "semantic_tags": ["post_f_canary", "organization_scope", "movement_evidence", "explicit_period"], + "review_focus": "Organization movements, not stale VAT metadata." + }, + { + "step_id": "048_altplus_documents_after_movements", + "question": "А теперь по документам?", + "semantic_tags": ["post_f_canary", "document_pivot", "organization_scope"], + "review_focus": "Pivot movements -> documents keeps org and period." + }, + { + "step_id": "049_altplus_documents_2021", + "question": "А теперь за 2021 год?", + "semantic_tags": ["post_f_canary", "year_switch", "document_evidence"], + "review_focus": "Year switch on current document lane." + }, + { + "step_id": "050_altplus_documents_all_time", + "question": "А теперь за все время?", + "semantic_tags": ["post_f_canary", "all_time_followup", "document_evidence"], + "review_focus": "Period reset without losing org/document lane." + }, + { + "step_id": "051_inventory_colloquial_root", + "question": "кайф, что там на складе по остаткам?", + "semantic_tags": ["post_f_manual_failure", "inventory_root", "colloquial_wording"], + "review_focus": "Если нужен scope, корректное уточнение нормально; не должен выдумывать." + }, + { + "step_id": "052_inventory_scope_alt", + "question": "АЛЬТЕРНАТИВА", + "semantic_tags": ["post_f_manual_failure", "organization_clarification", "inventory_scope"], + "review_focus": "Должен распознать Альтернативу как организацию/контур." + }, + { + "step_id": "053_inventory_period_march_2016", + "question": "март 2016", + "semantic_tags": ["post_f_manual_failure", "period_clarification", "inventory_position"], + "review_focus": "Период уточняется colloquial короткой фразой." + }, + { + "step_id": "054_selected_workstation_source", + "question": "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?", + "semantic_tags": ["selected_object_continuity", "inventory_item", "document_evidence"], + "review_focus": "UI-style selected object wording should anchor exact item." + }, + { + "step_id": "055_selected_workstation_vat", + "question": "НДС можешь прикинуть на дату покупки рабочей станции?", + "semantic_tags": ["selected_object_continuity", "vat", "purchase_date_inference"], + "review_focus": "Должен связать selected item/purchase date carefully and mark inference if exact proof missing." + }, + { + "step_id": "056_selected_item_profitability", + "question": "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?", + "semantic_tags": ["selected_object_continuity", "inventory_item_profitability", "profit_boundary"], + "review_focus": "Selected-item profitability should avoid company-level profit confusion." + }, + { + "step_id": "057_top_customer_all_time_legacy", + "question": "Кто у нас самый доходный клиент за все время?", + "semantic_tags": ["legacy_canary", "value_flow_ranking", "all_time_followup"], + "review_focus": "Old deterministic route must still answer or clarify, not regress." + }, + { + "step_id": "058_chepurnov_docs", + "question": "По Чепурнову покажи все доки.", + "semantic_tags": ["legacy_canary", "counterparty_lookup", "document_evidence"], + "review_focus": "Counterparty/entity lookup and documents." + }, + { + "step_id": "059_chepurnov_goods", + "question": "Что нам отгружал Чепурнов: какой товар или услугу?", + "semantic_tags": ["legacy_canary", "document_line_items", "goods_services"], + "review_focus": "Должен перейти от документов к товарным/услужным строкам." + }, + { + "step_id": "060_current_inventory", + "question": "А сейчас у нас есть что на складе?", + "semantic_tags": ["legacy_canary", "inventory_current", "current_date_honesty"], + "review_focus": "Проверить temporal honesty: текущая дата анализа 2026-05-05, но данные 1С могут иметь свой последний срез." + }, + { + "step_id": "061_final_manual_review_summary", + "question": "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно.", + "semantic_tags": ["manual_review_summary", "context_integrity", "analyst_synthesis"], + "review_focus": "Финальный ответ должен удержать контекст всего прогона и честно выделить рискованные зоны." + } + ] +} diff --git a/llm_normalizer/data/autorun_generators/history.json b/llm_normalizer/data/autorun_generators/history.json index bfbb886..27eb246 100644 --- a/llm_normalizer/data/autorun_generators/history.json +++ b/llm_normalizer/data/autorun_generators/history.json @@ -1,4 +1,191 @@ [ + { + "generation_id": "gen-mq05051418-fat99", + "created_at": "2026-05-05T14:18:16+03:00", + "mode": "saved_user_sessions", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "count": 61, + "domain": "open_world_bounded_autonomy_breadth_manual_qa", + "questions": [ + "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст", + "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать.", + "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020.", + "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет.", + "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает.", + "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?", + "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?", + "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?", + "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию.", + "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?", + "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно.", + "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию.", + "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе.", + "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?", + "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад.", + "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?", + "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?", + "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками.", + "Теперь резко переключаемся: найди в 1С контрагента СВК.", + "Сколько получили по нему за 2020 год?", + "А теперь сколько заплатили?", + "А какое нетто по СВК: сколько получили минус сколько заплатили?", + "А по документам СВК что видно?", + "А по движениям?", + "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод.", + "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески.", + "СВК закончили. Новая тема: покажи документы по Жуковке 51.", + "Хорошо, а теперь платежи по нему тоже покажи.", + "А по нему договоры?", + "А по нему документы?", + "А за 2021?", + "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?", + "По ООО Альтернатива Плюс.", + "Понял, тогда за все время.", + "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?", + "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?", + "И кто больше всего принес денег этой организации в 2020 году?", + "А в 2021 году?", + "Какие справочники 1С есть по контрагентам?", + "давай дальше", + "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?", + "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?", + "А чем капибара отличается от утки?", + "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017.", + "А сколько НДС в налоговую за декабрь 2020?", + "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?", + "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год.", + "А теперь по документам?", + "А теперь за 2021 год?", + "А теперь за все время?", + "кайф, что там на складе по остаткам?", + "АЛЬТЕРНАТИВА", + "март 2016", + "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?", + "НДС можешь прикинуть на дату покупки рабочей станции?", + "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?", + "Кто у нас самый доходный клиент за все время?", + "По Чепурнову покажи все доки.", + "Что нам отгружал Чепурнов: какой товар или услугу?", + "А сейчас у нас есть что на складе?", + "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно." + ], + "generated_by": "codex_manual_qa_pack", + "saved_case_set_file": "assistant_autogen_saved_user_sessions_20260505141816_gen-mq05051418-fat99.json", + "context": { + "llm_provider": null, + "model": null, + "assistant_prompt_version": null, + "decomposition_prompt_version": null, + "prompt_fingerprint": null, + "autogen_personality_id": null, + "autogen_personality_prompt": null, + "source_session_id": null, + "saved_session_file": "assistant_saved_session_20260505141816_gen-mq05051418-fat99.json", + "saved_case_set_kind": "assistant_session_scenario", + "agent_run": false, + "agent_focus": "manual GUI QA pack for Open-World 99: business overview, scope integrity, pivots, VAT/debt/inventory boundaries, Post-F and phase83 canaries; not live-accepted yet", + "architecture_phase": "turnaround_11_open_world_bounded_autonomy_breadth_99", + "source_spec_file": "X:\\1C\\NDC_1C\\docs\\orchestration\\manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json", + "scenario_id": "manual_qa_open_world_breadth_99_fat_gui_pack_20260505", + "semantic_tags": [ + "account_section_profile", + "all_time_followup", + "analyst_synthesis", + "best_year", + "business_overview", + "catalog_drilldown", + "catalog_metadata_surface", + "clarification_answer", + "colloquial_wording", + "context_guard", + "context_integrity", + "contract_evidence", + "contract_usage_profile", + "counterparty_all_time", + "counterparty_followup", + "counterparty_lookup", + "counterparty_pivot", + "counterparty_population", + "current_date_honesty", + "customer_concentration", + "date_carryover", + "debt_due_date_boundary", + "debt_position", + "document_activity_profile", + "document_evidence", + "document_line_items", + "document_pivot", + "dynamic_schema_traversal", + "entity_resolution", + "explicit_as_of_date", + "explicit_date", + "explicit_period", + "followup_anchor", + "followup_reuse", + "goods_services", + "grounded_summary", + "human_answer", + "human_answer_quality", + "incoming_value_flow", + "inventory_boundary", + "inventory_current", + "inventory_item", + "inventory_item_profitability", + "inventory_position", + "inventory_reserve_boundary", + "inventory_root", + "inventory_scope", + "legacy_canary", + "manual_review_summary", + "meta_route_reasoning", + "meta_smalltalk", + "metadata_surface", + "missing_proof_families", + "money_flow", + "movement_evidence", + "net_value_flow", + "neutral_followup", + "off_domain_living_chat", + "open_scope_total", + "open_settlements", + "organization_clarification", + "organization_scope", + "outgoing_value_flow", + "period_clarification", + "period_switch", + "phase83_canary", + "post_f_canary", + "post_f_manual_failure", + "profit_boundary", + "profit_margin_boundary", + "pronoun_followup", + "proof_boundary", + "purchase_date_inference", + "route_planning", + "scope_integrity", + "selected_object_continuity", + "stale_debt_snapshot_guard", + "stale_inventory_snapshot_guard", + "stale_period_guard", + "stale_replay_forbidden", + "stale_scope_guard", + "supplier_concentration", + "tax_boundary", + "top_customer", + "top_supplier", + "topic_pivot", + "value_flow", + "value_flow_comparison", + "value_flow_ranking", + "vat", + "vat_canary", + "vat_metadata", + "vendor_risk_boundary", + "year_switch" + ], + "latest_acceptance": null + } + }, { "generation_id": "gen-ag05011759-6f85fc", "created_at": "2026-05-01T17:59:04+00:00", diff --git a/llm_normalizer/data/autorun_generators/saved_sessions/assistant_saved_session_20260505141816_gen-mq05051418-fat99.json b/llm_normalizer/data/autorun_generators/saved_sessions/assistant_saved_session_20260505141816_gen-mq05051418-fat99.json new file mode 100644 index 0000000..5d52cf2 --- /dev/null +++ b/llm_normalizer/data/autorun_generators/saved_sessions/assistant_saved_session_20260505141816_gen-mq05051418-fat99.json @@ -0,0 +1,733 @@ +{ + "saved_at": "2026-05-05T14:18:16+03:00", + "generation_id": "gen-mq05051418-fat99", + "mode": "saved_user_sessions", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "manual_qa": true, + "questions": [ + "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст", + "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать.", + "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020.", + "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет.", + "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает.", + "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?", + "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?", + "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?", + "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию.", + "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?", + "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно.", + "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию.", + "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе.", + "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?", + "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад.", + "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?", + "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?", + "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками.", + "Теперь резко переключаемся: найди в 1С контрагента СВК.", + "Сколько получили по нему за 2020 год?", + "А теперь сколько заплатили?", + "А какое нетто по СВК: сколько получили минус сколько заплатили?", + "А по документам СВК что видно?", + "А по движениям?", + "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод.", + "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески.", + "СВК закончили. Новая тема: покажи документы по Жуковке 51.", + "Хорошо, а теперь платежи по нему тоже покажи.", + "А по нему договоры?", + "А по нему документы?", + "А за 2021?", + "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?", + "По ООО Альтернатива Плюс.", + "Понял, тогда за все время.", + "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?", + "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?", + "И кто больше всего принес денег этой организации в 2020 году?", + "А в 2021 году?", + "Какие справочники 1С есть по контрагентам?", + "давай дальше", + "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?", + "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?", + "А чем капибара отличается от утки?", + "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017.", + "А сколько НДС в налоговую за декабрь 2020?", + "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?", + "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год.", + "А теперь по документам?", + "А теперь за 2021 год?", + "А теперь за все время?", + "кайф, что там на складе по остаткам?", + "АЛЬТЕРНАТИВА", + "март 2016", + "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?", + "НДС можешь прикинуть на дату покупки рабочей станции?", + "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?", + "Кто у нас самый доходный клиент за все время?", + "По Чепурнову покажи все доки.", + "Что нам отгружал Чепурнов: какой товар или услугу?", + "А сейчас у нас есть что на складе?", + "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно." + ], + "metadata": { + "assistant_prompt_version": null, + "decomposition_prompt_version": null, + "prompt_fingerprint": null, + "manual_qa_focus": "Большой ручной GUI-автопрогон для проверки текущих Open-World/Business Overview наработок, контекстной целостности, stale-scope защиты, Post-F/phase83 canaries и старых детерминированных маршрутов перед закрытием этапа.", + "architecture_phase": "turnaround_11_open_world_bounded_autonomy_breadth_99", + "source_spec_file": "X:\\1C\\NDC_1C\\docs\\orchestration\\manual_qa_open_world_breadth_99_fat_gui_pack_20260505.json", + "scenario_id": "manual_qa_open_world_breadth_99_fat_gui_pack_20260505", + "semantic_tags": [ + "account_section_profile", + "all_time_followup", + "analyst_synthesis", + "best_year", + "business_overview", + "catalog_drilldown", + "catalog_metadata_surface", + "clarification_answer", + "colloquial_wording", + "context_guard", + "context_integrity", + "contract_evidence", + "contract_usage_profile", + "counterparty_all_time", + "counterparty_followup", + "counterparty_lookup", + "counterparty_pivot", + "counterparty_population", + "current_date_honesty", + "customer_concentration", + "date_carryover", + "debt_due_date_boundary", + "debt_position", + "document_activity_profile", + "document_evidence", + "document_line_items", + "document_pivot", + "dynamic_schema_traversal", + "entity_resolution", + "explicit_as_of_date", + "explicit_date", + "explicit_period", + "followup_anchor", + "followup_reuse", + "goods_services", + "grounded_summary", + "human_answer", + "human_answer_quality", + "incoming_value_flow", + "inventory_boundary", + "inventory_current", + "inventory_item", + "inventory_item_profitability", + "inventory_position", + "inventory_reserve_boundary", + "inventory_root", + "inventory_scope", + "legacy_canary", + "manual_review_summary", + "meta_route_reasoning", + "meta_smalltalk", + "metadata_surface", + "missing_proof_families", + "money_flow", + "movement_evidence", + "net_value_flow", + "neutral_followup", + "off_domain_living_chat", + "open_scope_total", + "open_settlements", + "organization_clarification", + "organization_scope", + "outgoing_value_flow", + "period_clarification", + "period_switch", + "phase83_canary", + "post_f_canary", + "post_f_manual_failure", + "profit_boundary", + "profit_margin_boundary", + "pronoun_followup", + "proof_boundary", + "purchase_date_inference", + "route_planning", + "scope_integrity", + "selected_object_continuity", + "stale_debt_snapshot_guard", + "stale_inventory_snapshot_guard", + "stale_period_guard", + "stale_replay_forbidden", + "stale_scope_guard", + "supplier_concentration", + "tax_boundary", + "top_customer", + "top_supplier", + "topic_pivot", + "value_flow", + "value_flow_comparison", + "value_flow_ranking", + "vat", + "vat_canary", + "vat_metadata", + "vendor_risk_boundary", + "year_switch" + ], + "status": "prepared_for_manual_gui_review_not_live_accepted", + "manual_review_required": true + }, + "source_session_id": null, + "session": { + "session_id": null, + "mode": "manual_qa_prepared_pack", + "items": [ + { + "message_id": "manual-qa-user-001", + "role": "user", + "text": "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-002", + "role": "user", + "text": "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-003", + "role": "user", + "text": "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-004", + "role": "user", + "text": "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-005", + "role": "user", + "text": "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-006", + "role": "user", + "text": "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-007", + "role": "user", + "text": "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-008", + "role": "user", + "text": "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-009", + "role": "user", + "text": "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-010", + "role": "user", + "text": "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-011", + "role": "user", + "text": "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-012", + "role": "user", + "text": "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-013", + "role": "user", + "text": "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-014", + "role": "user", + "text": "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-015", + "role": "user", + "text": "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-016", + "role": "user", + "text": "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-017", + "role": "user", + "text": "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-018", + "role": "user", + "text": "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-019", + "role": "user", + "text": "Теперь резко переключаемся: найди в 1С контрагента СВК.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-020", + "role": "user", + "text": "Сколько получили по нему за 2020 год?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-021", + "role": "user", + "text": "А теперь сколько заплатили?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-022", + "role": "user", + "text": "А какое нетто по СВК: сколько получили минус сколько заплатили?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-023", + "role": "user", + "text": "А по документам СВК что видно?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-024", + "role": "user", + "text": "А по движениям?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-025", + "role": "user", + "text": "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-026", + "role": "user", + "text": "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-027", + "role": "user", + "text": "СВК закончили. Новая тема: покажи документы по Жуковке 51.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-028", + "role": "user", + "text": "Хорошо, а теперь платежи по нему тоже покажи.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-029", + "role": "user", + "text": "А по нему договоры?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-030", + "role": "user", + "text": "А по нему документы?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-031", + "role": "user", + "text": "А за 2021?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-032", + "role": "user", + "text": "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-033", + "role": "user", + "text": "По ООО Альтернатива Плюс.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-034", + "role": "user", + "text": "Понял, тогда за все время.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-035", + "role": "user", + "text": "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-036", + "role": "user", + "text": "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-037", + "role": "user", + "text": "И кто больше всего принес денег этой организации в 2020 году?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-038", + "role": "user", + "text": "А в 2021 году?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-039", + "role": "user", + "text": "Какие справочники 1С есть по контрагентам?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-040", + "role": "user", + "text": "давай дальше", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-041", + "role": "user", + "text": "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-042", + "role": "user", + "text": "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-043", + "role": "user", + "text": "А чем капибара отличается от утки?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-044", + "role": "user", + "text": "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-045", + "role": "user", + "text": "А сколько НДС в налоговую за декабрь 2020?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-046", + "role": "user", + "text": "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-047", + "role": "user", + "text": "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-048", + "role": "user", + "text": "А теперь по документам?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-049", + "role": "user", + "text": "А теперь за 2021 год?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-050", + "role": "user", + "text": "А теперь за все время?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-051", + "role": "user", + "text": "кайф, что там на складе по остаткам?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-052", + "role": "user", + "text": "АЛЬТЕРНАТИВА", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-053", + "role": "user", + "text": "март 2016", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-054", + "role": "user", + "text": "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-055", + "role": "user", + "text": "НДС можешь прикинуть на дату покупки рабочей станции?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-056", + "role": "user", + "text": "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-057", + "role": "user", + "text": "Кто у нас самый доходный клиент за все время?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-058", + "role": "user", + "text": "По Чепурнову покажи все доки.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-059", + "role": "user", + "text": "Что нам отгружал Чепурнов: какой товар или услугу?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-060", + "role": "user", + "text": "А сейчас у нас есть что на складе?", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + }, + { + "message_id": "manual-qa-user-061", + "role": "user", + "text": "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно.", + "created_at": "2026-05-05T14:18:16+03:00", + "reply_type": null, + "trace_id": null, + "debug": null + } + ] + } +} diff --git a/llm_normalizer/data/eval_cases/assistant_autogen_saved_user_sessions_20260505141816_gen-mq05051418-fat99.json b/llm_normalizer/data/eval_cases/assistant_autogen_saved_user_sessions_20260505141816_gen-mq05051418-fat99.json new file mode 100644 index 0000000..68a146d --- /dev/null +++ b/llm_normalizer/data/eval_cases/assistant_autogen_saved_user_sessions_20260505141816_gen-mq05051418-fat99.json @@ -0,0 +1,208 @@ +{ + "suite_id": "assistant_saved_session_gen-mq05051418-fat99", + "suite_version": "0.1.0", + "schema_version": "assistant_saved_session_suite_v0_1", + "generated_at": "2026-05-05T14:18:16+03:00", + "generation_id": "gen-mq05051418-fat99", + "mode": "saved_user_sessions", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "domain": "open_world_bounded_autonomy_breadth_manual_qa", + "scenario_count": 1, + "case_ids": [ + "SAVED-001" + ], + "cases": [ + { + "case_id": "SAVED-001", + "scenario_tag": "manual_qa_open_world_breadth_99_fat_gui_pack", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "question_type": "followup", + "broadness_level": "high", + "turns": [ + { + "user_message": "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст" + }, + { + "user_message": "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать." + }, + { + "user_message": "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020." + }, + { + "user_message": "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет." + }, + { + "user_message": "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает." + }, + { + "user_message": "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?" + }, + { + "user_message": "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?" + }, + { + "user_message": "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?" + }, + { + "user_message": "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию." + }, + { + "user_message": "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?" + }, + { + "user_message": "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно." + }, + { + "user_message": "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию." + }, + { + "user_message": "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе." + }, + { + "user_message": "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?" + }, + { + "user_message": "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад." + }, + { + "user_message": "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?" + }, + { + "user_message": "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?" + }, + { + "user_message": "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками." + }, + { + "user_message": "Теперь резко переключаемся: найди в 1С контрагента СВК." + }, + { + "user_message": "Сколько получили по нему за 2020 год?" + }, + { + "user_message": "А теперь сколько заплатили?" + }, + { + "user_message": "А какое нетто по СВК: сколько получили минус сколько заплатили?" + }, + { + "user_message": "А по документам СВК что видно?" + }, + { + "user_message": "А по движениям?" + }, + { + "user_message": "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод." + }, + { + "user_message": "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески." + }, + { + "user_message": "СВК закончили. Новая тема: покажи документы по Жуковке 51." + }, + { + "user_message": "Хорошо, а теперь платежи по нему тоже покажи." + }, + { + "user_message": "А по нему договоры?" + }, + { + "user_message": "А по нему документы?" + }, + { + "user_message": "А за 2021?" + }, + { + "user_message": "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?" + }, + { + "user_message": "По ООО Альтернатива Плюс." + }, + { + "user_message": "Понял, тогда за все время." + }, + { + "user_message": "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?" + }, + { + "user_message": "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?" + }, + { + "user_message": "И кто больше всего принес денег этой организации в 2020 году?" + }, + { + "user_message": "А в 2021 году?" + }, + { + "user_message": "Какие справочники 1С есть по контрагентам?" + }, + { + "user_message": "давай дальше" + }, + { + "user_message": "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?" + }, + { + "user_message": "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?" + }, + { + "user_message": "А чем капибара отличается от утки?" + }, + { + "user_message": "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017." + }, + { + "user_message": "А сколько НДС в налоговую за декабрь 2020?" + }, + { + "user_message": "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?" + }, + { + "user_message": "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год." + }, + { + "user_message": "А теперь по документам?" + }, + { + "user_message": "А теперь за 2021 год?" + }, + { + "user_message": "А теперь за все время?" + }, + { + "user_message": "кайф, что там на складе по остаткам?" + }, + { + "user_message": "АЛЬТЕРНАТИВА" + }, + { + "user_message": "март 2016" + }, + { + "user_message": "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?" + }, + { + "user_message": "НДС можешь прикинуть на дату покупки рабочей станции?" + }, + { + "user_message": "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?" + }, + { + "user_message": "Кто у нас самый доходный клиент за все время?" + }, + { + "user_message": "По Чепурнову покажи все доки." + }, + { + "user_message": "Что нам отгружал Чепурнов: какой товар или услугу?" + }, + { + "user_message": "А сейчас у нас есть что на складе?" + }, + { + "user_message": "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно." + } + ] + } + ] +} diff --git a/llm_normalizer/data/eval_cases/assistant_saved_session_runtime_job-eUovXbfqU0.json b/llm_normalizer/data/eval_cases/assistant_saved_session_runtime_job-eUovXbfqU0.json new file mode 100644 index 0000000..1ecc827 --- /dev/null +++ b/llm_normalizer/data/eval_cases/assistant_saved_session_runtime_job-eUovXbfqU0.json @@ -0,0 +1,204 @@ +{ + "suite_id": "assistant_saved_session_runtime_job-eUovXbfqU0", + "suite_version": "0.1.0", + "schema_version": "assistant_saved_session_runtime_v0_1", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "scenario_count": 1, + "case_ids": [ + "SAVED-001" + ], + "cases": [ + { + "case_id": "SAVED-001", + "scenario_tag": "saved_user_sessions_runtime", + "title": "MANUAL QA | Open-World 99 жирный прогон: бизнес-обзор, pivots, legacy canaries", + "question_type": "followup", + "broadness_level": "medium", + "turns": [ + { + "user_message": "привет, ты на связи? перед большим прогоном отвечай живо, но не теряй потом бизнес-контекст" + }, + { + "user_message": "Дай взрослый бизнес-обзор ООО Альтернатива Плюс за 2020 год по данным 1С: обороты, входящие и исходящие деньги, нетто, НДС, дебиторка, кредиторка, склад, клиенты, поставщики, договоры, документы, что подтверждено и что пока нельзя утверждать." + }, + { + "user_message": "Раскрой деньги подробнее: сколько всего получили, сколько заплатили, какой чистый денежный поток, кто главный клиент и кто главный поставщик в 2020." + }, + { + "user_message": "А если смотреть за все доступное время, какой самый доходный год по подтвержденным оборотам и почему? Только не называй это бухгалтерской прибылью, если ее нет." + }, + { + "user_message": "Можно ли по этим данным посчитать нормальную прибыль и маржу компании? Если нет, дай proxy-анализ и объясни, каких учетных доказательств не хватает." + }, + { + "user_message": "Кто крупнейшие клиенты Альтернативы Плюс и насколько бизнес зависит от одного покупателя?" + }, + { + "user_message": "А по поставщикам: кто самый крупный получатель исходящих денег и есть ли риск зависимости от поставщика?" + }, + { + "user_message": "Что с НДС за 2020 год по Альтернативе Плюс: какая позиция видна, на чем она основана и чего не хватает для налогового вывода?" + }, + { + "user_message": "Теперь за все доступное время дай обзор компании в целом, но не тащи НДС за 2020 как подтвержденную общую налоговую позицию." + }, + { + "user_message": "Какая дебиторка и кредиторка у Альтернативы Плюс на 2020-12-31, и где самые крупные открытые расчеты?" + }, + { + "user_message": "Это можно считать просрочкой и плохим качеством долга или пока только открытыми расчетами? Объясни аккуратно." + }, + { + "user_message": "Теперь снова за все время по компании: дай общий бизнес-обзор, но не тащи долговой срез на 2020-12-31 как текущую или общую долговую позицию." + }, + { + "user_message": "Покажи складской срез Альтернативы Плюс на 2026-04-16: что есть в остатках, какие самые заметные позиции, и что это говорит о бизнесе." + }, + { + "user_message": "Можно ли из этого сказать, что склад ликвидный или что надо создавать резервы/списывать неликвид? Если нет, что именно подтверждено и чего не хватает?" + }, + { + "user_message": "Теперь общий обзор Альтернативы Плюс за все время, но не тащи складской остаток на 2026-04-16 как общий all-time склад." + }, + { + "user_message": "Сколько реально активных контрагентов и договоров видно по Альтернативе Плюс, какие роли у контрагентов, и какие договоры используются чаще всего?" + }, + { + "user_message": "Какой профиль документов и разделов учета виден по компании: продажи, закупки, банк, склад, НДС? Где активность плотнее всего?" + }, + { + "user_message": "Собери это как нормальный бизнес-аудит: сильные стороны, риски, что уже можно сказать уверенно, что только proxy, и что директору проверить руками." + }, + { + "user_message": "Теперь резко переключаемся: найди в 1С контрагента СВК." + }, + { + "user_message": "Сколько получили по нему за 2020 год?" + }, + { + "user_message": "А теперь сколько заплатили?" + }, + { + "user_message": "А какое нетто по СВК: сколько получили минус сколько заплатили?" + }, + { + "user_message": "А по документам СВК что видно?" + }, + { + "user_message": "А по движениям?" + }, + { + "user_message": "Теперь по СВК за все доступное время: деньги, документы, движения, и короткий вывод." + }, + { + "user_message": "Проверь себя: ты сейчас не смешал Группа СВК как контрагента с ООО Альтернатива Плюс как организацией? Объясни контур человечески." + }, + { + "user_message": "СВК закончили. Новая тема: покажи документы по Жуковке 51." + }, + { + "user_message": "Хорошо, а теперь платежи по нему тоже покажи." + }, + { + "user_message": "А по нему договоры?" + }, + { + "user_message": "А по нему документы?" + }, + { + "user_message": "А за 2021?" + }, + { + "user_message": "С Жуковкой закончили. Теперь нужна другая задача: быстрый денежный срез по одной организации. Сколько вообще входящих денег было за 2020 год?" + }, + { + "user_message": "По ООО Альтернатива Плюс." + }, + { + "user_message": "Понял, тогда за все время." + }, + { + "user_message": "Хорошо. А что по ООО Альтернатива Плюс больше в 2020 году: входящие или исходящие деньги?" + }, + { + "user_message": "А что по ООО Альтернатива Плюс больше уже за 2021 год: входящие или исходящие деньги?" + }, + { + "user_message": "И кто больше всего принес денег этой организации в 2020 году?" + }, + { + "user_message": "А в 2021 году?" + }, + { + "user_message": "Какие справочники 1С есть по контрагентам?" + }, + { + "user_message": "давай дальше" + }, + { + "user_message": "Какие поля и связи стоит смотреть у документов реализации и поступления, если я хочу потом идти в продажи, закупки, оплату и движения?" + }, + { + "user_message": "Если я спрашиваю прибыль компании, какой маршрут ты должен выбрать и что обязан честно ограничить в ответе?" + }, + { + "user_message": "А чем капибара отличается от утки?" + }, + { + "user_message": "Возвращаемся к 1С: прикинь, какой НДС нам надо заплатить за февраль 2017." + }, + { + "user_message": "А сколько НДС в налоговую за декабрь 2020?" + }, + { + "user_message": "Мне нужно понять, где в 1С по НДС вообще лежат данные. Какие объекты стоит смотреть по НДС?" + }, + { + "user_message": "Хорошо, тогда покажи движения по ООО Альтернатива Плюс за 2020 год." + }, + { + "user_message": "А теперь по документам?" + }, + { + "user_message": "А теперь за 2021 год?" + }, + { + "user_message": "А теперь за все время?" + }, + { + "user_message": "кайф, что там на складе по остаткам?" + }, + { + "user_message": "АЛЬТЕРНАТИВА" + }, + { + "user_message": "март 2016" + }, + { + "user_message": "По выбранному объекту \"Рабочая станция универсального специалиста (индивидуальное изготовление)\": где взяли это?" + }, + { + "user_message": "НДС можешь прикинуть на дату покупки рабочей станции?" + }, + { + "user_message": "По выбранному объекту \"Четки Пост (84*117)\": сколько заработали на продаже, какие закупочные и продажные документы это подтверждают?" + }, + { + "user_message": "Кто у нас самый доходный клиент за все время?" + }, + { + "user_message": "По Чепурнову покажи все доки." + }, + { + "user_message": "Что нам отгружал Чепурнов: какой товар или услугу?" + }, + { + "user_message": "А сейчас у нас есть что на складе?" + }, + { + "user_message": "Финально собери executive summary по всему диалогу: где ответы были подтвержденными, где proxy, где не хватило доказательств, и какие места мне руками смотреть особенно внимательно." + } + ] + } + ] +} \ No newline at end of file