ハーネスを変えたら全部変わった — 数字で見る環境設計の威力

「ハーネスエンジニアリングは本当に効くのか？」——概念としては納得できても、実際の数字を見ないと判断しづらい。ここでは2026年Q1に報告された主要な実証データを並べて、環境設計の威力を検証する。

LangChain: モデルは同じ、ハーネスだけでTop30→Top5

2026年2月、LangChainが衝撃的なポストを投稿した（424いいね）。TerminalBench 2.0というコーディングベンチマークで、モデルは一切変更せずハーネスだけを改良した結果、ランキングがTop30からTop5に跳ね上がったという。

Hexabaseも同様の結果を報告している。LangChainの環境設計術を適用したところ、精度が52.8%から66.5%へ13.7ポイント改善。タイトルが象徴的だ——「AIモデルの性能差じゃなかった」。

Hacker Newsでは「15のLLMのコーディング性能を午後だけで改善。モデルではなくハーネスだけを変更」という投稿があり、「AIはLLMとハーネスを結ぶフィードバックループ全体のサイバネティックシステムとして考えるべき」という議論が展開されている。

エンジニアリングの話だけではない。法律AI企業のHarveyは2026年4月7日、12の内部法律タスク（リース審査、訴状起草、デューデリジェンス回答等）にハーネスエンジニアリングを適用した結果を公開した。

平均成功率が40.8%から87.7%に向上。7つのタスクが90%を超え、1つは100%に達した。注目すべきは手法で、LLMジャッジ（AIによる評価）からのフィードバックを受けて、コーディングエージェントがハーネスそのものを自動修正するループを回している。

これはCS業務にも応用できるパターンだ。問い合わせ対応、エスカレーション判断、レポート生成——定型タスクの成功率を計測し、失敗パターンを分析してハーネスを改善するPDCAは、まさにハーネスエンジニアリングの実践そのものだ。

Stanford大学のYoonho LeeとOmar Khattab（DSPyの著者）らが2026年3月にarXivで公開した論文「Meta-Harness」は、さらに先を行く。ハーネスの設計自体をAIエージェントに任せ、自動で最適化するループを実証した。

Proposer（Claude Code + Opus 4.6）が過去に作ったハーネスのソースコード、実行トレース、評価スコアをファイルシステムで参照し、新しいハーネスを構築→評価→蓄積するループを回す。1回の評価で最大1000万トークンの診断情報を生成する。

結果は印象的だ:

4つの発見のうち最も興味深いのは「実行トレースへのフルアクセスが決定的に重要」という点だ。AIが過去の実行で何をどう試して、どこでどう失敗したかの生ログがないと、ハーネスの改善ができない。要約では情報が削ぎ落とされすぎて効果がなくなる。

これらのデータが示唆するのは明快だ。モデルのアップグレードはAnthropicやOpenAI頼みだが、ハーネスの改善は自分たちの手の中にある。しかもハーネス改善の方がROIが高いケースが多い。

最も簡単な第一歩は、Harvey式の「タスク成功率追跡」を導入することだろう。自社で自動化している業務の成功率を計測し、失敗パターンを分析し、CLAUDE.md やスキルを改善する。これだけで、気づいた頃にはハーネスエンジニアリングを実践していることになる。