188 lines
7.4 KiB
JSON
188 lines
7.4 KiB
JSON
{
|
||
"run_id": "eval-aOEoelkQb2",
|
||
"timestamp": "2026-03-23T18:09:06.293Z",
|
||
"mode": "single-pass-strict",
|
||
"use_mock": false,
|
||
"prompt_version": "normalizer_v2",
|
||
"schema_version": "v2",
|
||
"dataset": {
|
||
"source": "inline_raw_questions",
|
||
"file": null,
|
||
"raw_questions_count": 10
|
||
},
|
||
"cases_total": 10,
|
||
"metrics": {
|
||
"schema_validation_pass_rate": 100,
|
||
"scope_in_scope_rate": 100,
|
||
"multi_intent_detected_rate": 0,
|
||
"clarification_required_rate": 80,
|
||
"avg_fragments_per_message": 1,
|
||
"out_of_scope_fragment_rate": 0,
|
||
"routed_fragment_rate": 100,
|
||
"no_route_fragment_rate": 0
|
||
},
|
||
"budget": {
|
||
"requests_total": 11,
|
||
"retries_used": 1
|
||
},
|
||
"route_distribution": {
|
||
"hybrid_store_plus_live": 4,
|
||
"store_feature_risk": 6
|
||
},
|
||
"fallback_distribution": {
|
||
"none": 2,
|
||
"clarification": 8
|
||
},
|
||
"results": [
|
||
{
|
||
"case_id": "BQ-001",
|
||
"raw_question": "Какие реализации на конец периода выглядят так, будто они зависли и будут портить картину по выручке, если их не проверить заранее?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"trace_id": "8_BzV102qV2iTO",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-002",
|
||
"raw_question": "Покажи реализации, где хвост выглядит особенно неприятно: сумма не маленькая, возраст хвоста уже заметный, и при этом не видно нормального завершения цепочки.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "3rUQkDkh-JlGl6",
|
||
"request_count_for_case": 2
|
||
},
|
||
{
|
||
"case_id": "BQ-003",
|
||
"raw_question": "По каким продажам на конец месяца видно, что бухгалтер потом будет долго распутывать, почему все это не сошлось нормально?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"trace_id": "SCnaV6ceFjE2IH",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-004",
|
||
"raw_question": "Где банк и бухгалтерский контур, скорее всего, расходятся не по одной строке, а по паттерну, который уже начинает повторяться?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "n33S9rLjDQvvRh",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-005",
|
||
"raw_question": "Есть ли такие зависшие авансы, которые уже давно надо было либо закрыть, либо хотя бы перепроверить руками?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "mevf8cflx6G80P",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-006",
|
||
"raw_question": "Что сейчас лежит на 10 счете так, будто это уже давно надо было либо списать, либо хотя бы проверить, почему оно до сих пор висит?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "fwB6C_fBfZqdzu",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-007",
|
||
"raw_question": "Покажи позиции по материалам, где возможен эффект \"вроде сумма не огромная, но учетная логика выглядит криво\".",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "medium",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "6BAiubmfHx17q_",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-008",
|
||
"raw_question": "Есть ли такие расходы будущих периодов, которые заведены, но по ним не видно нормальной ежемесячной жизни, как будто запись повисла сама по себе?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "1KBRovASAt6sTv",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-009",
|
||
"raw_question": "Покажи объекты ОС, где риск не в сумме, а в том, что карточка и логика начисления выглядят подозрительно и могут аукнуться позже.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "pkExx_p7wcGIMk",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-010",
|
||
"raw_question": "Есть ли движения по счету 51, которые выглядят корректно по сумме, но по смыслу оставляют после себя подозрительный хвост?",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"trace_id": "BI7ljrWDvTgbKg",
|
||
"request_count_for_case": 1
|
||
}
|
||
]
|
||
} |