NODEDC_1C/llm_normalizer/data/eval_cases/eval-baY1nPi1rI.report.json

522 lines
24 KiB
JSON
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"run_id": "eval-baY1nPi1rI",
"timestamp": "2026-03-23T18:59:54.829Z",
"mode": "single-pass-strict",
"use_mock": false,
"prompt_version": "normalizer_v2_0_1",
"schema_version": "v2_0_1",
"dataset": {
"source": "inline_raw_questions",
"file": null,
"raw_questions_count": 26
},
"cases_total": 26,
"metrics": {
"schema_validation_pass_rate": 96.15,
"scope_in_scope_rate": 92.31,
"multi_intent_detected_rate": 0,
"clarification_required_rate": 15.38,
"avg_fragments_per_message": 1.12,
"out_of_scope_fragment_rate": 3.45,
"routed_fragment_rate": 79.31,
"no_route_fragment_rate": 20.69,
"executable_with_soft_assumptions_rate": 75,
"soft_assumption_used_fragment_rate": 75,
"clarification_precision": null,
"clarification_recall": null,
"false_clarification_rate": null
},
"budget": {
"requests_total": 27,
"retries_used": 1
},
"clarification_eval": {
"labeled_cases": 0,
"true_positive": 0,
"false_positive": 0,
"false_negative": 0
},
"route_distribution": {
"hybrid_store_plus_live": 11,
"store_feature_risk": 7,
"batch_refresh_then_store": 4,
"no_route": 6,
"store_canonical": 1
},
"fallback_distribution": {
"none": 21,
"clarification": 4,
"out_of_scope": 1
},
"results": [
{
"case_id": "BQ-001",
"raw_question": "Сделай общий предзакрывающий срез по июню: где у нас самые опасные узлы, которые могут дать искажение по выручке, взаиморасчётам и остаткам одновременно, и разложи это по приоритету ручной проверки.",
"validation_passed": false,
"message_in_scope": null,
"scope_confidence": null,
"contains_multiple_tasks": null,
"fragments_total": 0,
"in_scope_fragments": 0,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "SatgafwxwDR9BU",
"request_count_for_case": 2
},
{
"case_id": "BQ-002",
"raw_question": "Покажи контрагентов, по которым хвосты уже выглядят не как обычная операционная задержка, а как системная проблема в связке документы → оплаты → закрывающие.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 2,
"in_scope_fragments": 2,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 2,
"trace_id": "n1MTEG5Q29gcYT",
"request_count_for_case": 1
},
{
"case_id": "BQ-003",
"raw_question": "Есть ли у нас такие продажи, где формально всё проведено, но по логике движения денег, документов и взаиморасчётов видно, что цепочка собрана криво и в любой момент может всплыть.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "fUhDiDLbuJiG6-",
"request_count_for_case": 1
},
{
"case_id": "BQ-004",
"raw_question": "Собери список самых неприятных кейсов по 90/62 на конец месяца: чтобы было видно сумму, возраст хвоста, признаки кривой связки и вероятность, что это не просто неоплата, а проблема учёта.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "1rPOulMwiTUNhk",
"request_count_for_case": 1
},
{
"case_id": "BQ-005",
"raw_question": "Где по банку есть ощущение, что выписка, документ и проводка живут отдельно друг от друга, и уже начинает формироваться повторяющийся паттерн, а не единичный косяк.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 2,
"in_scope_fragments": 2,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 2,
"trace_id": "kaY792kzieMaGz",
"request_count_for_case": 1
},
{
"case_id": "BQ-006",
"raw_question": "Покажи банковские движения, которые выглядят прилично по сумме, но после них остаётся бухгалтерский хвост, который не объясняется нормальной хозяйственной логикой.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "ZWbQvRRpw4S66P",
"request_count_for_case": 1
},
{
"case_id": "BQ-007",
"raw_question": "Есть ли такие участки по 51 счёту, где проблема, скорее всего, не в платеже, а в том, что закрытие операции ушло не тем документом или не в тот смысловой узел.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "7_Fn4g4trZlueK",
"request_count_for_case": 1
},
{
"case_id": "BQ-008",
"raw_question": "Покажи товарные позиции, по которым уже можно подозревать, что реализация, приход и остаток между собой не держат нормальную учётную конструкцию.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "tUhkJVKXEc3rI-",
"request_count_for_case": 1
},
{
"case_id": "BQ-009",
"raw_question": "Где по складу и реализации видно, что проблема не просто в количестве, а в том, что себестоимость или подтверждение движения опираются на слабую или разваленную цепочку.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "Ha3VJR9Cfgu7k_",
"request_count_for_case": 1
},
{
"case_id": "BQ-010",
"raw_question": "Есть ли материалы на 10 счёте, которые зависли так, что это уже выглядит не как забытая мелочь, а как системная дыра в логике участка.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "8fdkn-EtZynWPb",
"request_count_for_case": 1
},
{
"case_id": "BQ-011",
"raw_question": "Покажи позиции по материалам, где сумма сама по себе не пугает, но характер остатка и движения намекает, что потом это может аукнуться при разборе периода.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "clarification",
"predicted_clarification_required": true,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "HNAXW_JV6E_hp-",
"request_count_for_case": 1
},
{
"case_id": "BQ-012",
"raw_question": "Какие записи на 97 счёте больше всего похожи на историю, где документ завели, а дальше нормальной жизни у него не случилось: срок, списание и поведение записи друг другу противоречат.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "syUHcCf_EoioxW",
"request_count_for_case": 1
},
{
"case_id": "BQ-013",
"raw_question": "Есть ли по РБП такие кейсы, где ошибка не в одной дате, а в том, что сама логика начала, окончания и длительности выглядит бухгалтерски сомнительно.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "9JP7hooywVr3D1",
"request_count_for_case": 1
},
{
"case_id": "BQ-014",
"raw_question": "Покажи объекты ОС, где карточка, срок и логика начисления амортизации выглядят так, будто объект поставили на учёт скорее “как-нибудь”, чем по нормальной модели.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "0a5H84MIV-WDv4",
"request_count_for_case": 1
},
{
"case_id": "BQ-015",
"raw_question": "Собери список самых подозрительных объектов ОС: не по сумме, а по риску того, что потом придётся долго объяснять, почему карточка и начисления не бьются между собой.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 2,
"in_scope_fragments": 2,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "mIR3Cru_dmM5PQ",
"request_count_for_case": 1
},
{
"case_id": "BQ-016",
"raw_question": "Где у нас в целом по июню повторяется один и тот же тип проблемной связи, а не просто всплывают разовые косяки по разным участкам.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "V6VRAtxXFVlx02",
"request_count_for_case": 1
},
{
"case_id": "BQ-017",
"raw_question": "Если смотреть на компанию как на единый контур, какие три зоны сейчас опаснее всего с точки зрения накопленного технического мусора в учёте, который может вылезти на закрытии.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "clarification",
"predicted_clarification_required": true,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "vuvha8oq0Y67kU",
"request_count_for_case": 1
},
{
"case_id": "BQ-018",
"raw_question": "Разложи по приоритету не просто ошибки, а именно те места, где человеку потом придётся дольше всего вручную распутывать, что произошло и почему это не сошлось.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "clarification",
"predicted_clarification_required": true,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "dtTCTe9sMiGv2F",
"request_count_for_case": 1
},
{
"case_id": "BQ-019",
"raw_question": "Есть ли такие висящие истории, где по верхнему уровню всё выглядит терпимо, но если копнуть вглубь, видно, что несколько сущностей держатся на слабой или ложной связи.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "avKa64EwOxGaLl",
"request_count_for_case": 1
},
{
"case_id": "BQ-020",
"raw_question": "Покажи мне не просто аномалии, а аномалии второго порядка: такие места, где отдельная ошибка не страшна, но в сочетании с другим участком уже начинает ломать картину периода.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "clarification",
"predicted_clarification_required": true,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "2VO4fwiW6_quNT",
"request_count_for_case": 1
},
{
"case_id": "BQ-021",
"raw_question": "Что сейчас в июне выглядит как история, которую бухгалтер отложил бы “на потом”, но именно из-за этого она может стать самой неприятной на закрытии.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "37Yw34xBrAk8B4",
"request_count_for_case": 1
},
{
"case_id": "BQ-022",
"raw_question": "Если бы нужно было за один заход проверить только пять узлов учёта перед закрытием, какие пять ты бы выбрал и по каким объективным признакам.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "7w49YyxNr1wJs1",
"request_count_for_case": 1
},
{
"case_id": "BQ-023",
"raw_question": "Есть ли кейсы, где один и тот же контрагент или объект всплывает сразу в нескольких подозрительных связях, и это уже похоже на концентратор проблем, а не на случайность.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 2,
"in_scope_fragments": 2,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 2,
"trace_id": "J9Yi0e6BjngR3a",
"request_count_for_case": 1
},
{
"case_id": "BQ-024",
"raw_question": "Покажи вопросы, которые можно решить только через причинную раскладку по документам и проводкам, а не просто через общий обзор подозрительных мест.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "wKyodOpouHsh1D",
"request_count_for_case": 1
},
{
"case_id": "BQ-025",
"raw_question": "Есть ли в нашей базе куски, которые выглядят так, будто их кто-то руками “дособирал”, и теперь формально всё стоит, но смысловая логика учёта у этого шатается.",
"validation_passed": true,
"message_in_scope": true,
"scope_confidence": "high",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 1,
"out_of_scope_fragments": 0,
"unclear_fragments": 0,
"fallback_type": "none",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 1,
"trace_id": "WTXGtMV3WRWhbP",
"request_count_for_case": 1
},
{
"case_id": "BQ-026",
"raw_question": "Как в целом правильно отражать расходы будущих периодов по лицензиям и подпискам по российским правилам, если говорить вообще, а не по нашей базе.",
"validation_passed": true,
"message_in_scope": false,
"scope_confidence": "low",
"contains_multiple_tasks": false,
"fragments_total": 1,
"in_scope_fragments": 0,
"out_of_scope_fragments": 1,
"unclear_fragments": 0,
"fallback_type": "out_of_scope",
"predicted_clarification_required": false,
"expected_clarification_required": null,
"executable_with_soft_assumptions_fragments": 0,
"trace_id": "dtXqHsYutlsp6q",
"request_count_for_case": 1
}
]
}