Tanomude — implementation status & roadmapTanomude — 実装状況とロードマップ
Every item of the internal master design, judged against the code at the 2026-06-07 snapshot and grouped the way the build was phased — MVP spine, stretch, roadmap. Each row carries its disposition and its evidence.
内部マスター設計の全項目を 2026-06-07 時点のコードスナップショットに照らして判定し、ビルドの段階分け — MVP スパイン・ストレッチ・ロードマップ — のとおりに整理しました。各行に処分と証拠を併記しています。
27
⚪ Deferred by decision
(stretch · roadmap · descoped)意図的延期
(ストレッチ・ロードマップ・スコープ外)
0
🔴 Unrecorded gap
(no disposition on record)未分類ギャップ
(処分記録なし)
Implemented 66% · partial 10% · deferred by decision 24% · gaps 0% | counted by row, excluding the workflow-flow mapping table; the 12 unimplemented API routes are grouped into 4 rows.
実装済 66%・部分実装 10%・意図的延期 24%・ギャップ 0% | 行単位の集計(ワークフロー対応表は除外)。未実装の API ルート12本は4行に集約。
Verdict — the MVP spine (W1–W3) is effectively complete; W4 publication has one remaining item, the demo video. Zero unclassified gaps: every unimplemented item carries a recorded disposition — stretch, roadmap, or out of build scope.
判定 — MVP スパイン(W1〜W3)は実質的に完成しており、W4(公開)に残るのはデモ動画の1項目です。未分類のギャップは0件。未実装の項目はどれも、ストレッチ・ロードマップ・ビルド範囲外のいずれかとして処分が記録されています。
Evidence honesty — runtime-verified means a dedicated test executed and passed in CI; code-anchor means a static reading of the code. Tests that need the embedding service are skipped in CI, so model- and embedding-dependent rows stay code-anchor rather than being promoted.
証拠の正直さ — runtime-verified は専用テストが CI で実行・通過したこと、code-anchor は静的なコード判読を意味します。埋め込みサービスを要するテストは CI ではスキップされるため、モデル・埋め込み依存の行は昇格させず code-anchor のままにしています。
Scope note — the design's "screen" layer is realized inside the operator console (a screen-state inspector panel, joined just after this snapshot by a 5250-style replay renderer), not as a separately served terminal page.
スコープ注記 — 設計の「画面」層は、独立して配信される端末ページとしてではなく、オペレーターコンソールの内部(画面状態インスペクタ。スナップショット直後に 5250 風リプレイレンダラーも追加)として実現されています。
Point in time — this page assesses the 2026-06-07 snapshot. Shipped since: the 5250-style green-screen replay renderer in the console, a code-enforced revise-immunity seam, Japanese refusal reasons, and the public interactive mock. The published eval numbers were re-confirmed unchanged at the public release commit — five identical runs, every metric and per-case outcome matching.
時点について — 本ページは 2026-06-07 のスナップショットを判定したものです。その後の出荷分:コンソール内の 5250 風グリーンスクリーン・リプレイレンダラー、コード強制の修正上書き不可シーム、日本語の却下文言、公開インタラクティブモック。公表済みの評価数値は公開コミットにおいて再確認され、5回の同一実行で全指標・全ケース結果が一致して変化なしでした。
Roadmap item — LLM usage instrumentation. A single instrumentation point in the LLM client wrapper (tokens, cost, latency, retries, model), a usage table, and the monitoring panel that reads them are designed but not yet built. They are tracked as a stretch/roadmap item, and the rows below reflect that disposition. The intended operations layer on top is written up in the operations design note.
ロードマップ項目 — LLM 利用量の計測。 LLM クライアントラッパーの単一計測点(トークン・コスト・レイテンシ・再試行・モデル)、利用量テーブル、それを読むモニタリングパネルは、設計済みですが未構築です。ストレッチ/ロードマップ項目として管理しており、以下の行はその処分を反映しています。その上に載る運用層の設計は運用設計ノートに記しています。
MVP spineMVP スパイン
W1 spike · adapter · mock · core loop · RAG · validation · structured output · end-to-end — 13/13 implementedスパイク・アダプタ・モック・コアループ・RAG・検証・構造化出力・一気通貫 — 13/13 実装済
| Item項目 | Status状態 | Evidence証拠 | UI |
| Reliability spike first — measure before building: free-form generation 7.5% → template + slot-fill 87.5% exact (96 runs, zero parse failures)信頼性スパイク先行 — 構築前に測定:自由生成 7.5% → テンプレート+スロットフィル 87.5% exact(96ラン・parse失敗0)Abort success 0/96 — the model never produced the correct abort sequence on a missing required field; this safety finding drove W2's multi-layer guards.abort 成功 0/96 — 必須項目欠落時に正しい中断列を一度も生成できず。この安全所見が W2 の多層ガードを要件化。 | Implemented実装済 | internal spike record (measurement memo + raw run results)内部スパイク記録(測定メモ+生ラン結果) code-anchor | noneなし |
| Adapter interface — read_screen / send_keys / assert_state, plus open/close session ownershipアダプタIF — read_screen / send_keys / assert_state + open/close のセッション所有 | Implemented実装済 | adapter/adapter/base.py code-anchor | noneなし |
| Mock layer ① screen — in-console realization (see the scope note above)モック第①層 画面 — コンソール内で実現(上のスコープ注記参照) | Implemented実装済 | frontend/src/components/Inspector.tsx code-anchor | Inspector, right panelInspector 右パネル |
| Mock layer ② behavior & state — FastAPI + Postgres state machineモック第②層 挙動・状態 — FastAPI + Postgres の状態機械 | Implemented実装済 | mock-as400/app/statemachine.py, services/session_service.py code-anchor | noneなし |
| Mock layer ③ adapter — MockAdapter + session endpointsモック第③層 アダプタ — MockAdapter + セッションAPI | Implemented実装済 | adapter/adapter/mock_adapter.py, mock-as400/app/routers/session.py code-anchor | noneなし |
| Core loop — run_task / execute (plan → execute → verify → recover)コアループ — run_task / execute(計画→実行→検証→回復) | Implemented実装済 | backend/backend/coreloop.py code-anchor | noneなし |
| RAG (a) structure-aware chunkingRAG (a) 構造認識チャンキング | Implemented実装済 | backend/backend/chunker.py code-anchor | noneなし |
| RAG (b) hybrid vector + full-text retrievalRAG (b) ベクトル+全文のハイブリッド検索 | Implemented実装済 | backend/backend/retrieval.py code-anchor | noneなし |
| RAG (c) reciprocal-rank fusion (k=60)RAG (c) RRF 融合(k=60) | Implemented実装済 | backend/backend/retrieval.py code-anchor | noneなし |
| Manual RAG injection + direct guideline injection手順書 RAG 注入 + 指針の直接注入 | Implemented実装済 | backend/backend/slotfill.py, agent/service.py code-anchor | noneなし |
| Pre-validation — required fields / out-of-domain / dates事前検証 — 必須項目/ドメイン外/日付 | Implemented実装済 | backend/backend/slotfill.py code-anchor | refusal on the approval card承認カードの却下表示 |
| Structured output enforced — Pydantic discriminated union + retry構造化出力の強制 — Pydantic 判別共用体 + 再試行 | Implemented実装済 | backend/backend/slotfill.py, ollama_client.py runtime-verified | noneなし |
| End-to-end capstone — login → application plan → approve → execute一気通貫の検収 — ログイン→申請計画→承認→実行 | Implemented実装済 | backend/tests/test_w1_capstone.py runtime-verified | noneなし |
W2 verify loop · approval card · HITL · recovery — 9/9 implementedverify ループ・承認カード・HITL・リカバリ — 9/9 実装済
| Item項目 | Status状態 | Evidence証拠 | UI |
| Verify loop — act → assert screen state → replan / rollbackverify ループ — 実行→画面状態の検証→再計画/ロールバック | Implemented実装済 | backend/backend/coreloop.py runtime-verified | ExecutionPanel |
| Replan tracking with a hard cap (MAX_REPLAN = 2)再計画回数の追跡と上限(MAX_REPLAN = 2) | Implemented実装済 | backend/backend/coreloop.py runtime-verified | noneなし |
| Rollback path + bad-input short-circuit to a personロールバック経路 + 入力データ不良の人への短絡 | Implemented実装済 | backend/backend/coreloop.py runtime-verified | 再入力/コード確認 badge再入力/コード確認バッジ |
| Approval gate — a plan lands as awaiting_approval, never auto-executes承認ゲート — 計画は awaiting_approval で停止し、自動実行されない | Implemented実装済 | backend/backend/agent/router.py code-anchor | noneなし |
| 承認 / 修正 / 却下 decision endpoints承認・修正・却下の決定エンドポイント | Implemented実装済 | backend/backend/agent/router.py runtime-verified | ActionBar buttonsActionBar ボタン |
| HITL state gate — a decision on a non-awaiting task is rejected (409)HITL 状態ゲート — 承認待ち以外のタスクへの決定は 409 で拒否 | Implemented実装済 | backend/backend/agent/router.py runtime-verified | noneなし |
| Structured approval card — analysis → plan → grounds構造化承認カード — 分析→計画→根拠 | Implemented実装済 | frontend/src/components/ApprovalCard.tsx + 3 tabs code-anchor | approval card, 3 tabs承認カード 3タブ |
| Four-way execution outcome — submitted / 再入力・コード確認 / 要調査 / refused実行結果の4分岐 — submitted/再入力・コード確認/要調査/却下 | Implemented実装済 | frontend/src/components/ExecutionPanel.tsx code-anchor | ExecutionPanel badgeExecutionPanel バッジ |
| Out-of-domain / required-field refusal, byte-exact Japanese reasonsドメイン外・必須項目不足の却下(バイト一致の日本語文言) | Implemented実装済 | backend/backend/slotfill.py runtime-verified | refusal on the approval card承認カードの却下表示 |
W3 eval harness + growth Δ — 6 implemented · 2 deferred by decision評価ハーネス + 育成 Δ — 6 実装済・2 意図的延期
| Item項目 | Status状態 | Evidence証拠 | UI |
| Eval harness skeleton — runs / cases / results + runner評価ハーネスの骨格 — runs / cases / results + ランナー | Implemented実装済 | backend/backend/models.py, eval_runner.py code-anchor | noneなし |
| Agent metrics — success · field accuracy · recovery · verify pass · average steps · routingエージェント指標 — 成功率・フィールド精度・リカバリ・verify 通過・平均ステップ・ルーティング | Implemented実装済 | backend/backend/eval_runner.py runtime-verified | noneなし |
| Dataset of 24 cases — normal 8 / missing-field 4 / wrong-code 4 / transient 4 / duplicate 4, with transient-fault injection24ケースのデータセット — 正常8/必須欠落4/誤コード4/一時障害4/重複4、一時障害の注入つき | Implemented実装済 | backend/backend/eval_dataset.py, eval_transient.py code-anchor | noneなし |
| Retrieval eval — precision / recall@k + MRR検索評価 — precision / recall@k + MRRSkipped in CI — needs the embedding service.CI ではスキップ — 埋め込みサービスが必要。 | Implemented実装済 | backend/backend/retrieval_eval.py code-anchor | noneなし |
| Growth effect — before/after Δ, control vs treatment育成効果 — 修正前後の Δ(control vs treatment)Measured Δ 0.625 — the reuse-previous-project slot moves on all four policy cases and the overseas slot on one of four, against a zero control baseline. Skipped in CI — needs the model.測定値 Δ 0.625 — 前回案件再利用スロットは方針4ケース中4、海外フラグは4ケース中1で動く(ゼロの対照ベースライン比)。CI ではスキップ — モデルが必要。 | Implemented実装済 | backend/backend/growth_eval.py code-anchor | noneなし |
| Growth dataset policy/boundary split + boundary-respect rate on protected slots育成データセットの方針/境界の二系統 + 保護スロットの境界尊重率Measured 1.0 — boundary respect is a code-enforced invariant, not a model probability.測定値 1.0 — 境界尊重はモデルの確率ではなくコード強制の不変条件。 | Implemented実装済 | backend/backend/growth_eval.py code-anchor | noneなし |
| LLM-as-judgeLLM-as-judge | Deferred by decision意図的延期 | recorded disposition: roadmap処分記録:ロードマップ — | noneなし |
| Eval regression gate in CI (merge-blocking) — promotion is a documented next stepCI の評価回帰ゲート(マージブロック)— 昇格は文書化済みの次課題 | Deferred by decision意図的延期 | recorded disposition: stretch処分記録:ストレッチ code-anchor | noneなし |
W4 publication — 3 implemented · 1 remaining公開 — 3 実装済・1 残
| Item項目 | Status状態 | Evidence証拠 | UI |
| Showcase README — measurement-first, retrieval up frontショーケース README — 測定を前面に | Implemented実装済 | README.md code-anchor | GitHub |
| docker compose up reproduction — six servicesdocker compose up での再現 — 6サービス | Implemented実装済 | docker-compose.yml code-anchor | http://localhost:8000 |
| Pushed to GitHub with live CI (clone → run)GitHub へのプッシュと稼働中の CI(clone→実行) | Implemented実装済 | the required verify workflow必須の verify ワークフロー runtime-verified | GitHub |
| Demo videoデモ動画 | Deferred by decision意図的延期 | README.md — "coming soon"README.md —「近日公開」 code-anchor | acknowledged, unproduced (the W4 remainder)未制作と明記(W4 の残り) |
Stretch — after the spine, in impact orderストレッチ — スパイン完成後・インパクト順 5 partial · 2 deferred by decision5 部分実装・2 意図的延期
| Item項目 | Status状態 | Evidence証拠 | UI |
| RAG re-ranking + deeper retrieval evalRAG リランキング + 検索評価の深化Retrieval eval is built; re-ranking is not.検索評価は実装済み・リランキングは未実装。 | Partial部分実装 | backend/backend/retrieval_eval.py code-anchor | noneなし |
| MCP packaging + multi-client supportMCP 正式パッケージング + マルチクライアントThe adapter interface shipped in W1; the MCP wrapper is not built.アダプタIFは W1 で実装済み。MCP 包装は未実装。 | Deferred by decision意図的延期 | adapter/adapter/base.py code-anchor | noneなし |
| Observability & operations — console drill-down + the three-layer ops design可観測性・運用 — コンソールのドリルダウン + 運用3層設計Timeline / Inspector / step observer are built; alerting and the dashboard are deferred — see the operations note.Timeline/Inspector/観測フックは実装済み。アラートとダッシュボードは延期 — 運用設計ノート参照。 | Partial部分実装 | Timeline.tsx, Inspector.tsx, backend/backend/observer.py code-anchor | ExecutionPanel |
| CI/CD full expansionCI/CD のフル拡張The minimal verify gate is live; the eval gate and a CD pipeline are deferred.最小の verify ゲートは稼働中。評価ゲートと CD は延期。 | Partial部分実装 | .github/workflows/verify.yml code-anchor | noneなし |
| Cloud LLM provider swapクラウド LLM プロバイダ切替The provider is local-only today; no swap seam exists yet.現状プロバイダはローカル専用・切替の継ぎ目は未実装。 | Deferred by decision意図的延期 | backend/backend/config.py code-anchor | noneなし |
| Growth deepening — versioning / unlearn / fallback育成の深化 — バージョン管理/unlearn/フォールバックVersioning and fallback are built; unlearn is not.バージョン管理とフォールバックは実装済み。unlearn は未実装。 | Partial部分実装 | backend/tests/test_correction_versioning.py runtime-verified | noneなし |
| Second workflow (expense settlement) / thin voice第二ワークフロー(出張精算)/薄い音声TTS is built; voice input and the second workflow are not.読み上げ(TTS)は実装済み。音声入力と第二ワークフローは未実装。 | Partial部分実装 | frontend/src/lib/voice.ts code-anchor | voice toggle音声トグル |
Roadmapロードマップ all deferred by decisionすべて意図的延期
| Item項目 | Status状態 | Disposition処分 |
| Advanced RAG — query rewriting / decomposition · multi-hop retrieval · HyDEアドバンスト RAG — クエリ書き換え/分解・マルチホップ検索・HyDE | Deferred by decision意図的延期 | roadmapロードマップ |
| System expansion — expense-settlement and reporting workflows; Notes / Access / SAP adaptersシステム拡張 — 出張精算・報告のワークフロー、Notes/Access/SAP アダプタExtensible through the existing adapter interface.既存のアダプタIF経由で拡張可能。 | Deferred by decision意図的延期 | roadmapロードマップ |
| SRE platform — admin CRUD · multi-tenancy · role management · a full admin surfaceSRE プラットフォーム — 管理 CRUD・マルチテナント・権限管理・管理画面フルセット | Deferred by decision意図的延期 | roadmapロードマップ |
| Operations deepening — alert rules · SLO/SLA · on-call · automatic rollback · automatic growth-contamination detection運用の深化 — アラートルール・SLO/SLA・オンコール・自動ロールバック・育成汚染の自動検知Designed in the operations design note.設計は運用設計ノートに記載。 | Deferred by decision意図的延期 | roadmapロードマップ |
| Model & eval — on-prem fine-tuning · eval-dataset expansion · LLM-as-judge deepeningモデルと評価 — オンプレ微調整・評価データセット拡張・LLM-as-judge の深化The base eval harness shipped in W3.基本の評価ハーネスは W3 で実装済み。 | Deferred by decision意図的延期 | roadmapロードマップ |
| Cloud deepening — self-hosted GPU serving · managed deployment · infrastructure as codeクラウドの深化 — GPU 自己ホスティング・マネージド配備・IaC | Deferred by decision意図的延期 | roadmapロードマップ |
Workflow flow, node by nodeワークフローの流れ(ノード別) mapped to the sections above — not counted in the totals上記セクションへの対応表 — 合計には不算入
| Flow nodeフローのノード | Status状態 | Mapping対応 |
| ① Context assembly (RAG + direct injection)① コンテキスト構成(RAG + 直接注入) | Implemented実装済 | W1 / backend/backend/agent/service.py |
| ② Model input proposal (adapter screen operations)② モデルの入力案(アダプタの画面操作) | Implemented実装済 | W1 / backend/backend/coreloop.py |
| ③ Pre-validation③ 事前検証 | Implemented実装済 | W1 / backend/backend/slotfill.py |
| ④ Approval gate (承認 / 修正 / 却下)④ 承認ゲート(承認・修正・却下) | Implemented実装済 | W2 / agent/router.py + ActionBar |
| ⑤ Execute + audit log⑤ 実行 + 監査ログ | Implemented実装済 | W2 / backend/backend/observer.py + audit log |
| ⑥ Verify (screen-state assertion)⑥ verify(画面状態の検証) | Implemented実装済 | W2 / backend/backend/coreloop.py |
| Replan / rollback + growth candidate再計画/ロールバック + 育成候補 | Implemented実装済 | W2 / backend/backend/coreloop.py |
| Voice, two moments — "ready" / "done" read-outs音声の2モーメント — 「準備完了」「完了」の読み上げ | Partial部分実装 | frontend/src/lib/voice.ts (TTS only, no voice input)(読み上げのみ・音声入力なし) |
Screens画面 4 implemented · 1 partial · 4 deferred by decision4 実装済・1 部分実装・4 意図的延期
| Item項目 | Status状態 | Evidence証拠 | UI |
| Voice-first + text input音声優先 + テキスト入力 | Partial部分実装 | frontend/src/lib/voice.ts (TTS only)(読み上げのみ) code-anchor | voice toggle音声トグル |
| Execution timeline実行タイムライン | Implemented実装済 | frontend/src/components/Timeline.tsx code-anchor | ExecutionPanel, leftExecutionPanel 左 |
| Inspector — intent → key-sequence drill-downInspector — 意図→キー列のドリルダウン | Implemented実装済 | frontend/src/components/Inspector.tsx code-anchor | ExecutionPanel, rightExecutionPanel 右 |
| Trace replayトレース再生At this snapshot the replay control moved the step cursor only; a 5250-style replay renderer shipped just after it.スナップショット時点では再生はカーソル移動のみ。直後に 5250 風リプレイレンダラーが出荷。 | Deferred by decision意図的延期 | frontend/src/components/ExecutionPanel.tsx code-anchor | 再生 / ライブ buttons再生/ライブ ボタン |
| Structured approval card (analysis → plan → grounds)構造化承認カード(分析→計画→根拠) | Implemented実装済 | frontend/src/components/ApprovalCard.tsx + 3 tabs code-anchor | approval card承認カード |
| Growth view (育成)育成ビューData and the growth-candidate badge exist; no dedicated view.データと育成候補バッジのみ・専用ビューなし。 | Deferred by decision意図的延期 | frontend/src/components/AnalysisTab.tsx code-anchor | 育成候補 badge (partial cue)育成候補バッジ(部分的な手掛かり) |
| Eval report view評価レポートビューThe backend eval is built; there is no report UI.バックエンドの評価は実装済み・レポート UI なし。 | Deferred by decision意図的延期 | — | noneなし |
| Monitoring panelモニタリングパネルTracked with the instrumentation roadmap item (see the note above).計測ロードマップ項目として管理(上の注記参照)。 | Deferred by decision意図的延期 | — | noneなし |
| Approval is always a tap — never voice承認は必ずタップ — 音声では承認しない | Implemented実装済 | frontend/src/components/ActionBar.tsx code-anchor | ActionBar |
API surfaceAPI 10 implemented · 4 deferred rows (12 routes)10 実装済・4 延期行(12 ルート)
| Routeルート | Status状態 | Evidence証拠 | UI |
| POST /tasks (immediate execution)(即時実行) | Implemented実装済 | backend/backend/agent/router.py runtime-verified | console submitコンソールの送信 |
| POST /tasks/plan (plan → awaiting_approval)(計画→承認待ち) | Implemented実装済 | backend/backend/agent/router.py runtime-verified | console submitコンソールの送信 |
| GET /tasks (list)(一覧) | Implemented実装済 | backend/backend/agent/router.py runtime-verified | noneなし |
| GET /tasks/{id} (hydration / reload)(復元/再読込) | Implemented実装済 | backend/backend/agent/router.py runtime-verified | restore on reload再読込時の復元 |
| GET /tasks/{id}/plan | Implemented実装済 | backend/backend/agent/router.py code-anchor | noneなし |
| WS /ws/agent | Implemented実装済 | backend/backend/agent/ws.py runtime-verified | live streamライブストリーム |
| POST /tasks/{id}/approve | Implemented実装済 | backend/backend/agent/router.py runtime-verified | 承認 on the approval card承認カードの承認 |
| POST /tasks/{id}/reject | Implemented実装済 | backend/backend/agent/router.py runtime-verified | 却下 on the approval card承認カードの却下 |
| POST /tasks/{id}/revise | Implemented実装済 | backend/backend/agent/router.py runtime-verified | 修正 on the approval card承認カードの修正 |
| Dual router mount (/ + /api)ルーターの二重マウント(/ + /api) | Implemented実装済 | backend/backend/agent/app.py code-anchor | frontend uses the /api mirrorフロントは /api ミラーを使用 |
| /knowledge/search · /knowledge/docs · /knowledge/reindex | Deferred by decision意図的延期 | retrieval logic is built in; no public HTTP routes (roadmap)検索ロジックは内蔵・HTTP ルートなし(ロードマップ) — | noneなし |
| /learn/correction · /learn/growth · /learn/unlearn | Deferred by decision意図的延期 | reject/revise create corrections automatically; no dedicated routes (roadmap)却下/修正が個人修正を自動生成・専用ルートなし(ロードマップ) — | noneなし |
| /eval/run · /eval/results · /eval/cases | Deferred by decision意図的延期 | the eval runner is batch/CI-internal; no HTTP routes (roadmap)評価ランナーはバッチ/CI 内部・HTTP ルートなし(ロードマップ) — | noneなし |
| /llm/usage · /admin/usage · /admin/health | Deferred by decision意図的延期 | no instrumentation or admin routes yet (the instrumentation roadmap item)計測・管理ルートなし(計測ロードマップ項目) — | noneなし |
Delta (design sketch → implementation): decision routes are task-scoped (/tasks/{id}/approve | reject | revise) rather than bare; planning and execution are split into two calls (POST /tasks/plan → POST /tasks/{id}/approve); GET /tasks/{id}/plan was added.
差分(設計スケッチ→実装):決定ルートは bare ではなくタスクスコープ(/tasks/{id}/approve|reject|revise)。計画と実行は 2コールに分離(POST /tasks/plan → POST /tasks/{id}/approve)。GET /tasks/{id}/plan を追加。
Production defenses本番運用の防御(7種) 6 implemented · 1 partial6 実装済・1 部分実装
| Defense防御 | Status状態 | Evidence証拠 |
| ① Growth conflict → the personal correction takes precedence (override)① 育成の衝突 → 個人修正の優先(override) | Implemented実装済 | backend/backend/corrections.py, agent/service.py runtime-verified |
| ② Growth contamination → versioning + fallback; unlearn is not built② 育成の汚染 → バージョン管理+フォールバック(unlearn は未実装) | Partial部分実装 | backend/tests/test_correction_versioning.py runtime-verified |
| ③ Parse errors → structured output enforced + retry③ パース失敗 → 構造化出力の強制 + 再試行 | Implemented実装済 | backend/backend/slotfill.py runtime-verified |
| ④ Async races → no sleep; wait on asserted state④ 非同期レース → sleep 禁止・状態の待ち合わせ | Implemented実装済 | adapter/adapter/base.py runtime-verified |
| ⑤ WebSocket drops → WS = notification, DB = source of truth⑤ WS 切断 → WS=通知/DB=真実の源泉 | Implemented実装済 | agent/ws.py, manager.py, useAgentStream.ts runtime-verified |
| ⑥ Duplicate submission → idempotency keys⑥ 重複送信 → 冪等キー | Implemented実装済 | backend/backend/coreloop.py, trip_repo.py runtime-verified |
| ⑦ Missing verify → post-action screen assertion → replan⑦ verify 不在 → 実行後の画面検証 → 再計画 | Implemented実装済 | backend/backend/coreloop.py runtime-verified |
Operations, three layers運用の3層 1 partial · 2 deferred by decision1 部分実装・2 意図的延期
| Item項目 | Status状態 | Evidence証拠 | UI |
| Layer 1 — alerts (health heartbeat · verify-failure rate · token/cost surge)第1層 — アラート(ハートビート・verify 失敗率・トークン/コスト急増) | Deferred by decision意図的延期 | no instrumentation point or alert channel yet; designed in the operations note計測点・通知チャネル未構築。設計は運用設計ノート | noneなし |
| Layer 2 — dashboard (live status · pass rates · retries · LLM calls · latency p50/p95)第2層 — ダッシュボード(ライブ状態・通過率・再試行・LLM 呼び出し・レイテンシ p50/p95) | Deferred by decision意図的延期 | tracked with the instrumentation roadmap item計測ロードマップ項目として管理 | noneなし |
| Layer 3 — drill-down (timeline + inspector + key-sequence trace + replay + audit log)第3層 — ドリルダウン(タイムライン+Inspector+キー列トレース+再生+監査ログ)Timeline, Inspector and the audit log are built; trace replay and drill-down queries were deferred at this snapshot.タイムライン・Inspector・監査ログは実装済み。トレース再生とドリルダウンクエリはスナップショット時点で延期。 | Partial部分実装 | Timeline.tsx, Inspector.tsx, audit log監査ログ | ExecutionPanel |
CI/CD 9 implemented · 1 partial · 2 deferred by decision9 実装済・1 部分実装・2 意図的延期
| Item項目 | Status状態 | Evidence証拠 |
| ruff lintruff リント | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| gitleaks secret scangitleaks シークレットスキャン | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| trufflehog second scantrufflehog 追加スキャン | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| Golden-fixture parity (eval cases must match the committed fixture)ゴールデンフィクスチャ一致(評価ケースはコミット済みフィクスチャと一致必須) | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| mock-as400 pytestmock-as400 の pytest | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| adapter pytestadapter の pytest | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| backend pytestbackend の pytestEmbedding/eval tests are skipped — no embedding service in CI.埋め込み・評価テストはスキップ — CI に埋め込みサービスなし。 | Partial部分実装 | .github/workflows/verify.yml runtime-verified |
| frontend lint + test + buildfrontend の lint + test + build | Implemented実装済 | .github/workflows/verify.yml runtime-verified |
| Required status check = the verify job (branch protection)必須ステータスチェック = verify ジョブ(ブランチ保護) | Implemented実装済 | verify.yml + rulesetverify.yml + ルールセット runtime-verified |
| Automated PR review workflowPR の自動レビューワークフロー | Implemented実装済 | .github/workflows/claude.yml code-anchor |
| Eval regression gate (merge-blocking)評価回帰ゲート(マージブロック) | Deferred by decision意図的延期 | recorded disposition: stretch処分記録:ストレッチ code-anchor |
| CD pipeline (compose smoke · deploy)CD パイプライン(compose スモーク・デプロイ) | Deferred by decision意図的延期 | recorded disposition: roadmap処分記録:ロードマップ code-anchor |
Data modelデータモデル 9 implemented · 1 partial · 2 deferred by decision9 実装済・1 部分実装・2 意図的延期
| Tableテーブル | Status状態 | Evidence / note証拠/備考 |
| operation_docs | Implemented実装済 | backend/backend/models.py |
| knowledge_chunks (1024-dim vector + FTS)(1024次元ベクトル + 全文検索) | Implemented実装済 | backend/backend/models.py — the hybrid-retrieval substrateハイブリッド検索の基盤 |
| tasks | Implemented実装済 | backend/backend/models.py |
| task_steps | Implemented実装済 | backend/backend/models.py — the timeline's dataタイムラインのデータ |
| approvals | Implemented実装済 | backend/backend/models.py |
| executions | Implemented実装済 | backend/backend/models.py |
| personal_corrections (versioned)(バージョン管理つき) | Implemented実装済 | backend/backend/models.py — version + supersedes chainversion + supersedes の連鎖 |
| audit_log | Implemented実装済 | backend/backend/models.py — every decision recordedすべての決定を記録 |
| eval_runs / eval_cases / eval_results | Implemented実装済 | backend/backend/models.py |
| growth_metrics | Partial部分実装 | carried on the eval-run record; no dedicated per-user table (schema delta)評価実行レコード上で保持・専用の利用者別テーブルなし(スキーマ差分) |
| manager_guidelines | Deferred by decision意図的延期 | central-manager scope — roadmap中央管理者スコープ — ロードマップ |
| llm_usage | Deferred by decision意図的延期 | the instrumentation roadmap item (see the note above); no table or logging yet計測ロードマップ項目(上の注記参照)。テーブル・ロギングとも未構築 |
Securityセキュリティ 4 implemented · 1 partial · 1 deferred by decision4 実装済・1 部分実装・1 意図的延期
| Item項目 | Status状態 | Evidence証拠 |
| Synthetic identifiers in all public material (自社 / ABC商事 / 製品X …)公開物の識別子はすべて架空(自社/ABC商事/製品X など) | Implemented実装済 | abstracted names throughout the code and dataコード・データ全体で抽象化した名称を使用 |
| Secrets in environment variables only; an example file is publicシークレットは環境変数のみ・サンプルファイルを公開 | Implemented実装済 | .gitignore, .env.example |
| Content ≠ command — screen content is never executed as an instruction; the adapter types values only as keystrokesコンテンツ≠命令 — 画面の内容を命令として実行しない。アダプタは値をキー入力としてのみ送出 | Implemented実装済 | backend/backend/slotfill.py + structured output構造化出力 |
| Confirmation = a human tap (HITL)確定 = 人のタップ(HITL) | Implemented実装済 | backend/backend/agent/router.py |
| Least privilege / sandboxing最小権限/サンドボックスContainer isolation only; OS-level hardening is out of this build's scope.コンテナ分離まで。OS レベルの強化はこのビルドの範囲外。 | Partial部分実装 | docker isolationdocker 分離 |
| Passwords in an OS keychainパスワード = OS キーチェーンEnvironment variables today; the production keychain is future work, stated in the README.現状は環境変数。本番キーチェーンは将来課題として README に明記。 | Deferred by decision意図的延期 | backend/backend/config.py, README |
Instrumentation計測 1 deferred by decision1 意図的延期
| Item項目 | Status状態 | Evidence / note証拠/備考 |
| LLM client wrapper as the single instrumentation point — tokens · cost · latency · retries · model loggingLLM クライアントラッパー = 単一計測点 — トークン・コスト・レイテンシ・再試行・モデルのロギング | Deferred by decision意図的延期 | the instrumentation roadmap item (see the note above) — paired with the llm_usage table計測ロードマップ項目(上の注記参照)— llm_usage テーブルと対 |