229 lines
9.1 KiB
JSON
229 lines
9.1 KiB
JSON
{
|
||
"run_id": "eval-wO885tbCgd",
|
||
"timestamp": "2026-03-23T18:47:12.834Z",
|
||
"mode": "single-pass-strict",
|
||
"use_mock": false,
|
||
"prompt_version": "normalizer_v2_0_1",
|
||
"schema_version": "v2_0_1",
|
||
"dataset": {
|
||
"source": "inline_raw_questions",
|
||
"file": null,
|
||
"raw_questions_count": 10
|
||
},
|
||
"cases_total": 10,
|
||
"metrics": {
|
||
"schema_validation_pass_rate": 100,
|
||
"scope_in_scope_rate": 100,
|
||
"multi_intent_detected_rate": 0,
|
||
"clarification_required_rate": 0,
|
||
"avg_fragments_per_message": 1,
|
||
"out_of_scope_fragment_rate": 0,
|
||
"routed_fragment_rate": 100,
|
||
"no_route_fragment_rate": 0,
|
||
"executable_with_soft_assumptions_rate": 100,
|
||
"soft_assumption_used_fragment_rate": 100,
|
||
"clarification_precision": null,
|
||
"clarification_recall": null,
|
||
"false_clarification_rate": null
|
||
},
|
||
"budget": {
|
||
"requests_total": 10,
|
||
"retries_used": 0
|
||
},
|
||
"clarification_eval": {
|
||
"labeled_cases": 0,
|
||
"true_positive": 0,
|
||
"false_positive": 0,
|
||
"false_negative": 0
|
||
},
|
||
"route_distribution": {
|
||
"hybrid_store_plus_live": 4,
|
||
"store_feature_risk": 6
|
||
},
|
||
"fallback_distribution": {
|
||
"none": 10
|
||
},
|
||
"results": [
|
||
{
|
||
"case_id": "BQ-001",
|
||
"raw_question": "Какие реализации на конец периода выглядят так, будто они зависли и будут портить картину по выручке, если их не проверить заранее?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "39JMzDVF5alXJM",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-002",
|
||
"raw_question": "Покажи реализации, где хвост выглядит особенно неприятно: сумма не маленькая, возраст хвоста уже заметный, и при этом не видно нормального завершения цепочки.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "1quAW9woZFTC_a",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-003",
|
||
"raw_question": "По каким продажам на конец месяца видно, что бухгалтер потом будет долго распутывать, почему все это не сошлось нормально?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "5Ykxwl4SJl8Lm6",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-004",
|
||
"raw_question": "Где банк и бухгалтерский контур, скорее всего, расходятся не по одной строке, а по паттерну, который уже начинает повторяться?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "dujfREyQcWG1p8",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-005",
|
||
"raw_question": "Есть ли такие зависшие авансы, которые уже давно надо было либо закрыть, либо хотя бы перепроверить руками?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "WzXkwFwiGTtXKC",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-006",
|
||
"raw_question": "Что сейчас лежит на 10 счете так, будто это уже давно надо было либо списать, либо хотя бы проверить, почему оно до сих пор висит?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "qwjznHv2OU7_YB",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-007",
|
||
"raw_question": "Покажи позиции по материалам, где возможен эффект \"вроде сумма не огромная, но учетная логика выглядит криво\".",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "7qKuSI4SrCPJWr",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-008",
|
||
"raw_question": "Есть ли такие расходы будущих периодов, которые заведены, но по ним не видно нормальной ежемесячной жизни, как будто запись повисла сама по себе?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "XxK59RCHy_vM5Z",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-009",
|
||
"raw_question": "Покажи объекты ОС, где риск не в сумме, а в том, что карточка и логика начисления выглядят подозрительно и могут аукнуться позже.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "Eyq9tJ_zuOSOJb",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-010",
|
||
"raw_question": "Есть ли движения по счету 51, которые выглядят корректно по сумме, но по смыслу оставляют после себя подозрительный хвост?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "YcDoamdW0qAwy9",
|
||
"request_count_for_case": 1
|
||
}
|
||
]
|
||
}
|