🔍 深掘り | 2026-04-04

トークン効率と文脈設計 — Claude Codeの生産性10倍差はどこから来るのか

#claude-code #token-efficiency #context-design #agents-md #best-practices トークン効率 Effort Level Extended Thinking AGENTS.md NEVERセクション Vertical Slice Architecture Lydia Hallie 文脈設計

📊 関連メトリクス

76%

Medium Effort トークン削減

出力トークンの削減率（/effort medium）

86% OFF

サブスク vs API従量課金

月21.4Mトークン消費時の比較

約2倍

Opus vs Sonnet リミット消費

OpusはSonnetの約2倍速でリミット消費

60,000リポジトリ

生産性差の根拠

文脈設計の有無による生産性差のデータ

💡 実務 Tips

初級

Effort Levelを使い分ける

定型操作は /effort medium（出力トークン76%削減）。設計・分析は /effort high。タスクの切り替え時に意識するだけでリミット消費が激変する

初級

Extended Thinkingは不要時オフにする

デフォルトで数万トークン/リクエスト消費。シンプルなタスクでは明らかに過剰。Alt+Tでトグル

中級

NEVERセクションは「育てるドキュメント」

AIが間違えた経験を蓄積していく。最初から完璧な禁止リストを作ろうとせず、インシデントドリブンで追記する運用が最も効果的

🎯 マネージャー判断ポイント

チームのCLAUDE.md / AGENTS.md設計にリソースを投じるか？

60,000リポジトリのデータで、文脈設計の有無が生産性10倍差の主因と示唆されている

▸ 投資する: CLAUDE.md設計ガイドラインを策定し、全リポジトリに適用。レビュープロセスに組み込む
▸ 自然発展: 各開発者の裁量に任せ、成功事例を共有する場を設ける

Claude Codeを使っている人の間で、月額$200の元を取れている人と取れていない人がいる。その差はプロンプトの巧さではなく、もっと地味なところにある。Anthropicの開発者Lydia Hallieが公開したトークン効率Tipsと、60,000リポジトリのデータから浮かび上がった「文脈設計」の話を、まとめて整理したい。

まずは「出血」を止める

Lydia Hallieの公式推奨は拍子抜けするほどシンプルだ。

Sonnet 4.6を使う。OpusはSonnetの約2倍の速度でリミットを消費する。Opusが必要なのは複雑な設計判断や深い推論のときだけで、日常的なコーディングにはSonnetで十分だ。

Extended Thinkingを不要時オフにする。デフォルトで数万トークンをリクエストごとに消費する。シンプルなファイル編集やコマンド実行にExtended Thinkingは過剰だ。Alt+Tでトグルできる。

新しいセッションを開始する / /clear でリセットする。長期セッションはコンテキストが膨張し続ける。タスクが変わったらセッションを切る。これだけでかなり違う。

そして個人的に最もインパクトが大きいと思うのが /effort コマンドだ。Medium Effortで出力トークンが76%削減される。定型操作やファイル整理に high effort は不要で、medium で十分な場面は実務上かなり多い。

実際の数字を見ると、月間21.4Mトークン消費（上位1-3%のヘビーユーザー）の場合、API従量課金なら月22万円かかるところがサブスクで3万円——86%オフだ。逆に言えば、Effort Levelの使い分けでサブスクの枠内に収まる人が大幅に増える可能性がある。

「文脈設計」が10倍差を生む根拠

トークン効率は「コスト」の話だが、もうひとつの軸は「品質」だ。@akira_papa_IT氏がQiita記事で紹介した60,000リポジトリのデータによれば、Claude Codeの生産性差はプロンプトの巧さではなく、リポジトリの文脈設計で決まる。

核心はAGENTS.md（またはCLAUDE.md）の NEVERセクション だ。AIに「やってはいけないこと」を明示する。デフォルトエクスポート禁止、node_modules直接編集禁止、.envコミット禁止、既存テスト削除禁止——こうした禁止事項を並べる。

重要なのは、このリストを「最初から完璧に作ろうとしない」ことだ。NEVERセクションは 「AIが間違えた経験から追加していく、育てるドキュメント」 という位置づけで運用するのが最も効果的だとされている。インシデントドリブンで禁止事項が蓄積されていくと、そのリポジトリ固有の「AIの癖」に最適化されたガードレールが出来上がる。

Vertical Sliceという発想

もうひとつ注目したいのが、Vertical Slice Architecture との相性だ。従来の controllers/ models/ views/ というレイヤー別構成ではなく、features/users/ のように機能単位でAPI・モデル・テスト・UIを集約する。

AIにとってのメリットは明確で、1つの機能に関する情報がディレクトリ1箇所に集まるため、コンテキストウィンドウに必要な情報を効率的に詰められる。100万トークンのコンテキストを持つClaude Codeでも、関連ファイルが10ディレクトリに散らばっていると精度が落ちる。情報の物理的な近接性が、AIの出力品質に直結する。

コストと品質は同じ根から生えている

率直に言えば、トークン効率の改善と文脈設計の改善は、表裏一体だ。文脈設計が優れていればAIは少ないやり取りで正しい答えを出すし、無駄な試行錯誤が減ればトークン消費も減る。

マネージャーとしての打ち手は二段構えになる。短期的には、Effort Levelとモデル選択の使い分けをチーム内で共有するだけで即効果が出る。中期的には、CLAUDE.md（AGENTS.md）のNEVERセクション設計と、リポジトリのディレクトリ構成見直しに投資する。この「地味な環境整備」が、ツール選定やプロンプト技法よりも大きなリターンを生む——というのが、60,000リポジトリのデータが語っていることだ。

この記事について