「ハーネスエンジニアリングは本当に効くのか?」——概念としては納得できても、実際の数字を見ないと判断しづらい。ここでは2026年Q1に報告された主要な実証データを並べて、環境設計の威力を検証する。

LangChain: モデルは同じ、ハーネスだけでTop30→Top5

2026年2月、LangChainが衝撃的なポストを投稿した(424いいね)。TerminalBench 2.0というコーディングベンチマークで、モデルは一切変更せずハーネスだけを改良した結果、ランキングがTop30からTop5に跳ね上がったという。

Hexabaseも同様の結果を報告している。LangChainの環境設計術を適用したところ、精度が52.8%から66.5%へ13.7ポイント改善。タイトルが象徴的だ——「AIモデルの性能差じゃなかった」。

Hacker Newsでは「15のLLMのコーディング性能を午後だけで改善。モデルではなくハーネスだけを変更」という投稿があり、「AIはLLMとハーネスを結ぶフィードバックループ全体のサイバネティックシステムとして考えるべき」という議論が展開されている。

Harvey: 法律業務の成功率40.8%→87.7%

エンジニアリングの話だけではない。法律AI企業のHarveyは2026年4月7日、12の内部法律タスク(リース審査、訴状起草、デューデリジェンス回答等)にハーネスエンジニアリングを適用した結果を公開した。

平均成功率が40.8%から87.7%に向上。7つのタスクが90%を超え、1つは100%に達した。注目すべきは手法で、LLMジャッジ(AIによる評価)からのフィードバックを受けて、コーディングエージェントがハーネスそのものを自動修正するループを回している。

これはCS業務にも応用できるパターンだ。問い合わせ対応、エスカレーション判断、レポート生成——定型タスクの成功率を計測し、失敗パターンを分析してハーネスを改善するPDCAは、まさにハーネスエンジニアリングの実践そのものだ。

Meta-Harness: ハーネスが自分でハーネスを改善する

Stanford大学のYoonho LeeとOmar Khattab(DSPyの著者)らが2026年3月にarXivで公開した論文「Meta-Harness」は、さらに先を行く。ハーネスの設計自体をAIエージェントに任せ、自動で最適化するループを実証した。

Proposer(Claude Code + Opus 4.6)が過去に作ったハーネスのソースコード、実行トレース、評価スコアをファイルシステムで参照し、新しいハーネスを構築→評価→蓄積するループを回す。1回の評価で最大1000万トークンの診断情報を生成する。

結果は印象的だ:

  • テキスト分類: 48.6%精度(既存手法ACEの40.9%を+7.7pt上回り、コンテキスト消費は1/4)
  • 数学推論(IMOレベル): +4.7pt(5つのモデルで汎化を確認)
  • コーディング(TerminalBench-2): Opus 4.6で76.4%(2位)、Haiku 4.5で37.6%(1位)

4つの発見のうち最も興味深いのは「実行トレースへのフルアクセスが決定的に重要」という点だ。AIが過去の実行で何をどう試して、どこでどう失敗したかの生ログがないと、ハーネスの改善ができない。要約では情報が削ぎ落とされすぎて効果がなくなる。

マネージャーとして見るべきポイント

これらのデータが示唆するのは明快だ。モデルのアップグレードはAnthropicやOpenAI頼みだが、ハーネスの改善は自分たちの手の中にある。しかもハーネス改善の方がROIが高いケースが多い。

最も簡単な第一歩は、Harvey式の「タスク成功率追跡」を導入することだろう。自社で自動化している業務の成功率を計測し、失敗パターンを分析し、CLAUDE.md やスキルを改善する。これだけで、気づいた頃にはハーネスエンジニアリングを実践していることになる。