{ "run_id": "eval-baY1nPi1rI", "timestamp": "2026-03-23T18:59:54.829Z", "mode": "single-pass-strict", "use_mock": false, "prompt_version": "normalizer_v2_0_1", "schema_version": "v2_0_1", "dataset": { "source": "inline_raw_questions", "file": null, "raw_questions_count": 26 }, "cases_total": 26, "metrics": { "schema_validation_pass_rate": 96.15, "scope_in_scope_rate": 92.31, "multi_intent_detected_rate": 0, "clarification_required_rate": 15.38, "avg_fragments_per_message": 1.12, "out_of_scope_fragment_rate": 3.45, "routed_fragment_rate": 79.31, "no_route_fragment_rate": 20.69, "executable_with_soft_assumptions_rate": 75, "soft_assumption_used_fragment_rate": 75, "clarification_precision": null, "clarification_recall": null, "false_clarification_rate": null }, "budget": { "requests_total": 27, "retries_used": 1 }, "clarification_eval": { "labeled_cases": 0, "true_positive": 0, "false_positive": 0, "false_negative": 0 }, "route_distribution": { "hybrid_store_plus_live": 11, "store_feature_risk": 7, "batch_refresh_then_store": 4, "no_route": 6, "store_canonical": 1 }, "fallback_distribution": { "none": 21, "clarification": 4, "out_of_scope": 1 }, "results": [ { "case_id": "BQ-001", "raw_question": "Сделай общий предзакрывающий срез по июню: где у нас самые опасные узлы, которые могут дать искажение по выручке, взаиморасчётам и остаткам одновременно, и разложи это по приоритету ручной проверки.", "validation_passed": false, "message_in_scope": null, "scope_confidence": null, "contains_multiple_tasks": null, "fragments_total": 0, "in_scope_fragments": 0, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "SatgafwxwDR9BU", "request_count_for_case": 2 }, { "case_id": "BQ-002", "raw_question": "Покажи контрагентов, по которым хвосты уже выглядят не как обычная операционная задержка, а как системная проблема в связке документы → оплаты → закрывающие.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 2, "in_scope_fragments": 2, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 2, "trace_id": "n1MTEG5Q29gcYT", "request_count_for_case": 1 }, { "case_id": "BQ-003", "raw_question": "Есть ли у нас такие продажи, где формально всё проведено, но по логике движения денег, документов и взаиморасчётов видно, что цепочка собрана криво и в любой момент может всплыть.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "fUhDiDLbuJiG6-", "request_count_for_case": 1 }, { "case_id": "BQ-004", "raw_question": "Собери список самых неприятных кейсов по 90/62 на конец месяца: чтобы было видно сумму, возраст хвоста, признаки кривой связки и вероятность, что это не просто неоплата, а проблема учёта.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "1rPOulMwiTUNhk", "request_count_for_case": 1 }, { "case_id": "BQ-005", "raw_question": "Где по банку есть ощущение, что выписка, документ и проводка живут отдельно друг от друга, и уже начинает формироваться повторяющийся паттерн, а не единичный косяк.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 2, "in_scope_fragments": 2, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 2, "trace_id": "kaY792kzieMaGz", "request_count_for_case": 1 }, { "case_id": "BQ-006", "raw_question": "Покажи банковские движения, которые выглядят прилично по сумме, но после них остаётся бухгалтерский хвост, который не объясняется нормальной хозяйственной логикой.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "ZWbQvRRpw4S66P", "request_count_for_case": 1 }, { "case_id": "BQ-007", "raw_question": "Есть ли такие участки по 51 счёту, где проблема, скорее всего, не в платеже, а в том, что закрытие операции ушло не тем документом или не в тот смысловой узел.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "7_Fn4g4trZlueK", "request_count_for_case": 1 }, { "case_id": "BQ-008", "raw_question": "Покажи товарные позиции, по которым уже можно подозревать, что реализация, приход и остаток между собой не держат нормальную учётную конструкцию.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "tUhkJVKXEc3rI-", "request_count_for_case": 1 }, { "case_id": "BQ-009", "raw_question": "Где по складу и реализации видно, что проблема не просто в количестве, а в том, что себестоимость или подтверждение движения опираются на слабую или разваленную цепочку.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "Ha3VJR9Cfgu7k_", "request_count_for_case": 1 }, { "case_id": "BQ-010", "raw_question": "Есть ли материалы на 10 счёте, которые зависли так, что это уже выглядит не как забытая мелочь, а как системная дыра в логике участка.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "8fdkn-EtZynWPb", "request_count_for_case": 1 }, { "case_id": "BQ-011", "raw_question": "Покажи позиции по материалам, где сумма сама по себе не пугает, но характер остатка и движения намекает, что потом это может аукнуться при разборе периода.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "clarification", "predicted_clarification_required": true, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "HNAXW_JV6E_hp-", "request_count_for_case": 1 }, { "case_id": "BQ-012", "raw_question": "Какие записи на 97 счёте больше всего похожи на историю, где документ завели, а дальше нормальной жизни у него не случилось: срок, списание и поведение записи друг другу противоречат.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "syUHcCf_EoioxW", "request_count_for_case": 1 }, { "case_id": "BQ-013", "raw_question": "Есть ли по РБП такие кейсы, где ошибка не в одной дате, а в том, что сама логика начала, окончания и длительности выглядит бухгалтерски сомнительно.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "9JP7hooywVr3D1", "request_count_for_case": 1 }, { "case_id": "BQ-014", "raw_question": "Покажи объекты ОС, где карточка, срок и логика начисления амортизации выглядят так, будто объект поставили на учёт скорее “как-нибудь”, чем по нормальной модели.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "0a5H84MIV-WDv4", "request_count_for_case": 1 }, { "case_id": "BQ-015", "raw_question": "Собери список самых подозрительных объектов ОС: не по сумме, а по риску того, что потом придётся долго объяснять, почему карточка и начисления не бьются между собой.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 2, "in_scope_fragments": 2, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "mIR3Cru_dmM5PQ", "request_count_for_case": 1 }, { "case_id": "BQ-016", "raw_question": "Где у нас в целом по июню повторяется один и тот же тип проблемной связи, а не просто всплывают разовые косяки по разным участкам.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "V6VRAtxXFVlx02", "request_count_for_case": 1 }, { "case_id": "BQ-017", "raw_question": "Если смотреть на компанию как на единый контур, какие три зоны сейчас опаснее всего с точки зрения накопленного технического мусора в учёте, который может вылезти на закрытии.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "clarification", "predicted_clarification_required": true, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "vuvha8oq0Y67kU", "request_count_for_case": 1 }, { "case_id": "BQ-018", "raw_question": "Разложи по приоритету не просто ошибки, а именно те места, где человеку потом придётся дольше всего вручную распутывать, что произошло и почему это не сошлось.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "clarification", "predicted_clarification_required": true, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "dtTCTe9sMiGv2F", "request_count_for_case": 1 }, { "case_id": "BQ-019", "raw_question": "Есть ли такие висящие истории, где по верхнему уровню всё выглядит терпимо, но если копнуть вглубь, видно, что несколько сущностей держатся на слабой или ложной связи.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "avKa64EwOxGaLl", "request_count_for_case": 1 }, { "case_id": "BQ-020", "raw_question": "Покажи мне не просто аномалии, а аномалии второго порядка: такие места, где отдельная ошибка не страшна, но в сочетании с другим участком уже начинает ломать картину периода.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "clarification", "predicted_clarification_required": true, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "2VO4fwiW6_quNT", "request_count_for_case": 1 }, { "case_id": "BQ-021", "raw_question": "Что сейчас в июне выглядит как история, которую бухгалтер отложил бы “на потом”, но именно из-за этого она может стать самой неприятной на закрытии.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "37Yw34xBrAk8B4", "request_count_for_case": 1 }, { "case_id": "BQ-022", "raw_question": "Если бы нужно было за один заход проверить только пять узлов учёта перед закрытием, какие пять ты бы выбрал и по каким объективным признакам.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "7w49YyxNr1wJs1", "request_count_for_case": 1 }, { "case_id": "BQ-023", "raw_question": "Есть ли кейсы, где один и тот же контрагент или объект всплывает сразу в нескольких подозрительных связях, и это уже похоже на концентратор проблем, а не на случайность.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 2, "in_scope_fragments": 2, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 2, "trace_id": "J9Yi0e6BjngR3a", "request_count_for_case": 1 }, { "case_id": "BQ-024", "raw_question": "Покажи вопросы, которые можно решить только через причинную раскладку по документам и проводкам, а не просто через общий обзор подозрительных мест.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "wKyodOpouHsh1D", "request_count_for_case": 1 }, { "case_id": "BQ-025", "raw_question": "Есть ли в нашей базе куски, которые выглядят так, будто их кто-то руками “дособирал”, и теперь формально всё стоит, но смысловая логика учёта у этого шатается.", "validation_passed": true, "message_in_scope": true, "scope_confidence": "high", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 1, "out_of_scope_fragments": 0, "unclear_fragments": 0, "fallback_type": "none", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 1, "trace_id": "WTXGtMV3WRWhbP", "request_count_for_case": 1 }, { "case_id": "BQ-026", "raw_question": "Как в целом правильно отражать расходы будущих периодов по лицензиям и подпискам по российским правилам, если говорить вообще, а не по нашей базе.", "validation_passed": true, "message_in_scope": false, "scope_confidence": "low", "contains_multiple_tasks": false, "fragments_total": 1, "in_scope_fragments": 0, "out_of_scope_fragments": 1, "unclear_fragments": 0, "fallback_type": "out_of_scope", "predicted_clarification_required": false, "expected_clarification_required": null, "executable_with_soft_assumptions_fragments": 0, "trace_id": "dtXqHsYutlsp6q", "request_count_for_case": 1 } ] }