522 lines
24 KiB
JSON
522 lines
24 KiB
JSON
{
|
||
"run_id": "eval-baY1nPi1rI",
|
||
"timestamp": "2026-03-23T18:59:54.829Z",
|
||
"mode": "single-pass-strict",
|
||
"use_mock": false,
|
||
"prompt_version": "normalizer_v2_0_1",
|
||
"schema_version": "v2_0_1",
|
||
"dataset": {
|
||
"source": "inline_raw_questions",
|
||
"file": null,
|
||
"raw_questions_count": 26
|
||
},
|
||
"cases_total": 26,
|
||
"metrics": {
|
||
"schema_validation_pass_rate": 96.15,
|
||
"scope_in_scope_rate": 92.31,
|
||
"multi_intent_detected_rate": 0,
|
||
"clarification_required_rate": 15.38,
|
||
"avg_fragments_per_message": 1.12,
|
||
"out_of_scope_fragment_rate": 3.45,
|
||
"routed_fragment_rate": 79.31,
|
||
"no_route_fragment_rate": 20.69,
|
||
"executable_with_soft_assumptions_rate": 75,
|
||
"soft_assumption_used_fragment_rate": 75,
|
||
"clarification_precision": null,
|
||
"clarification_recall": null,
|
||
"false_clarification_rate": null
|
||
},
|
||
"budget": {
|
||
"requests_total": 27,
|
||
"retries_used": 1
|
||
},
|
||
"clarification_eval": {
|
||
"labeled_cases": 0,
|
||
"true_positive": 0,
|
||
"false_positive": 0,
|
||
"false_negative": 0
|
||
},
|
||
"route_distribution": {
|
||
"hybrid_store_plus_live": 11,
|
||
"store_feature_risk": 7,
|
||
"batch_refresh_then_store": 4,
|
||
"no_route": 6,
|
||
"store_canonical": 1
|
||
},
|
||
"fallback_distribution": {
|
||
"none": 21,
|
||
"clarification": 4,
|
||
"out_of_scope": 1
|
||
},
|
||
"results": [
|
||
{
|
||
"case_id": "BQ-001",
|
||
"raw_question": "Сделай общий предзакрывающий срез по июню: где у нас самые опасные узлы, которые могут дать искажение по выручке, взаиморасчётам и остаткам одновременно, и разложи это по приоритету ручной проверки.",
|
||
"validation_passed": false,
|
||
"message_in_scope": null,
|
||
"scope_confidence": null,
|
||
"contains_multiple_tasks": null,
|
||
"fragments_total": 0,
|
||
"in_scope_fragments": 0,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "SatgafwxwDR9BU",
|
||
"request_count_for_case": 2
|
||
},
|
||
{
|
||
"case_id": "BQ-002",
|
||
"raw_question": "Покажи контрагентов, по которым хвосты уже выглядят не как обычная операционная задержка, а как системная проблема в связке документы → оплаты → закрывающие.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 2,
|
||
"in_scope_fragments": 2,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 2,
|
||
"trace_id": "n1MTEG5Q29gcYT",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-003",
|
||
"raw_question": "Есть ли у нас такие продажи, где формально всё проведено, но по логике движения денег, документов и взаиморасчётов видно, что цепочка собрана криво и в любой момент может всплыть.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "fUhDiDLbuJiG6-",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-004",
|
||
"raw_question": "Собери список самых неприятных кейсов по 90/62 на конец месяца: чтобы было видно сумму, возраст хвоста, признаки кривой связки и вероятность, что это не просто неоплата, а проблема учёта.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "1rPOulMwiTUNhk",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-005",
|
||
"raw_question": "Где по банку есть ощущение, что выписка, документ и проводка живут отдельно друг от друга, и уже начинает формироваться повторяющийся паттерн, а не единичный косяк.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 2,
|
||
"in_scope_fragments": 2,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 2,
|
||
"trace_id": "kaY792kzieMaGz",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-006",
|
||
"raw_question": "Покажи банковские движения, которые выглядят прилично по сумме, но после них остаётся бухгалтерский хвост, который не объясняется нормальной хозяйственной логикой.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "ZWbQvRRpw4S66P",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-007",
|
||
"raw_question": "Есть ли такие участки по 51 счёту, где проблема, скорее всего, не в платеже, а в том, что закрытие операции ушло не тем документом или не в тот смысловой узел.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "7_Fn4g4trZlueK",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-008",
|
||
"raw_question": "Покажи товарные позиции, по которым уже можно подозревать, что реализация, приход и остаток между собой не держат нормальную учётную конструкцию.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "tUhkJVKXEc3rI-",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-009",
|
||
"raw_question": "Где по складу и реализации видно, что проблема не просто в количестве, а в том, что себестоимость или подтверждение движения опираются на слабую или разваленную цепочку.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "Ha3VJR9Cfgu7k_",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-010",
|
||
"raw_question": "Есть ли материалы на 10 счёте, которые зависли так, что это уже выглядит не как забытая мелочь, а как системная дыра в логике участка.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "8fdkn-EtZynWPb",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-011",
|
||
"raw_question": "Покажи позиции по материалам, где сумма сама по себе не пугает, но характер остатка и движения намекает, что потом это может аукнуться при разборе периода.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"predicted_clarification_required": true,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "HNAXW_JV6E_hp-",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-012",
|
||
"raw_question": "Какие записи на 97 счёте больше всего похожи на историю, где документ завели, а дальше нормальной жизни у него не случилось: срок, списание и поведение записи друг другу противоречат.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "syUHcCf_EoioxW",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-013",
|
||
"raw_question": "Есть ли по РБП такие кейсы, где ошибка не в одной дате, а в том, что сама логика начала, окончания и длительности выглядит бухгалтерски сомнительно.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "9JP7hooywVr3D1",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-014",
|
||
"raw_question": "Покажи объекты ОС, где карточка, срок и логика начисления амортизации выглядят так, будто объект поставили на учёт скорее “как-нибудь”, чем по нормальной модели.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "0a5H84MIV-WDv4",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-015",
|
||
"raw_question": "Собери список самых подозрительных объектов ОС: не по сумме, а по риску того, что потом придётся долго объяснять, почему карточка и начисления не бьются между собой.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 2,
|
||
"in_scope_fragments": 2,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "mIR3Cru_dmM5PQ",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-016",
|
||
"raw_question": "Где у нас в целом по июню повторяется один и тот же тип проблемной связи, а не просто всплывают разовые косяки по разным участкам.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "V6VRAtxXFVlx02",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-017",
|
||
"raw_question": "Если смотреть на компанию как на единый контур, какие три зоны сейчас опаснее всего с точки зрения накопленного технического мусора в учёте, который может вылезти на закрытии.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"predicted_clarification_required": true,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "vuvha8oq0Y67kU",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-018",
|
||
"raw_question": "Разложи по приоритету не просто ошибки, а именно те места, где человеку потом придётся дольше всего вручную распутывать, что произошло и почему это не сошлось.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"predicted_clarification_required": true,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "dtTCTe9sMiGv2F",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-019",
|
||
"raw_question": "Есть ли такие висящие истории, где по верхнему уровню всё выглядит терпимо, но если копнуть вглубь, видно, что несколько сущностей держатся на слабой или ложной связи.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "avKa64EwOxGaLl",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-020",
|
||
"raw_question": "Покажи мне не просто аномалии, а аномалии второго порядка: такие места, где отдельная ошибка не страшна, но в сочетании с другим участком уже начинает ломать картину периода.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "clarification",
|
||
"predicted_clarification_required": true,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "2VO4fwiW6_quNT",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-021",
|
||
"raw_question": "Что сейчас в июне выглядит как история, которую бухгалтер отложил бы “на потом”, но именно из-за этого она может стать самой неприятной на закрытии.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "37Yw34xBrAk8B4",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-022",
|
||
"raw_question": "Если бы нужно было за один заход проверить только пять узлов учёта перед закрытием, какие пять ты бы выбрал и по каким объективным признакам.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "7w49YyxNr1wJs1",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-023",
|
||
"raw_question": "Есть ли кейсы, где один и тот же контрагент или объект всплывает сразу в нескольких подозрительных связях, и это уже похоже на концентратор проблем, а не на случайность.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 2,
|
||
"in_scope_fragments": 2,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 2,
|
||
"trace_id": "J9Yi0e6BjngR3a",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-024",
|
||
"raw_question": "Покажи вопросы, которые можно решить только через причинную раскладку по документам и проводкам, а не просто через общий обзор подозрительных мест.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "wKyodOpouHsh1D",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-025",
|
||
"raw_question": "Есть ли в нашей базе куски, которые выглядят так, будто их кто-то руками “дособирал”, и теперь формально всё стоит, но смысловая логика учёта у этого шатается.",
|
||
"validation_passed": true,
|
||
"message_in_scope": true,
|
||
"scope_confidence": "high",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 1,
|
||
"out_of_scope_fragments": 0,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "none",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 1,
|
||
"trace_id": "WTXGtMV3WRWhbP",
|
||
"request_count_for_case": 1
|
||
},
|
||
{
|
||
"case_id": "BQ-026",
|
||
"raw_question": "Как в целом правильно отражать расходы будущих периодов по лицензиям и подпискам по российским правилам, если говорить вообще, а не по нашей базе.",
|
||
"validation_passed": true,
|
||
"message_in_scope": false,
|
||
"scope_confidence": "low",
|
||
"contains_multiple_tasks": false,
|
||
"fragments_total": 1,
|
||
"in_scope_fragments": 0,
|
||
"out_of_scope_fragments": 1,
|
||
"unclear_fragments": 0,
|
||
"fallback_type": "out_of_scope",
|
||
"predicted_clarification_required": false,
|
||
"expected_clarification_required": null,
|
||
"executable_with_soft_assumptions_fragments": 0,
|
||
"trace_id": "dtXqHsYutlsp6q",
|
||
"request_count_for_case": 1
|
||
}
|
||
]
|
||
}
|