Namsang LABS
Radar · #ai #ai-engineering #harness-engineering #conference #agent

AI Engineer Europe 2026 — コードは無料になったが、品質はむしろ高くついた

· Sangkyoon Nam

4月8日から10日、ロンドンでAI Engineer Europe 2026が初めて開催された。100を超える発表、23のワークショップ、11のトラック。AIエンジニアリングが今どこに立っているかを最も広く見渡せる場だった。カンファレンスを貫くメッセージは「Models are good enough. You are not ready.」だった。モデルはもう十分だ。準備ができていないのは組織と環境の方だ。主要な発表から見えた5つの変曲点を整理する。

#1. “Code is free” vs “Bad code is the most expensive it’s ever been”

同じ舞台で正反対の主張が出た。

OpenAIのRyan Lopopoloは、9ヶ月間チームメンバーにエディタを禁止し、エージェントだけでソフトウェアを作らせた。

“Code is free. We have an abundance of code to solve the problems that we come across in our day-to-day.”

コードは無料だ。日常で直面する問題を解くコードが溢れている。

— Ryan Lopopolo, OpenAI

GPT 5.2以降、モデルはソフトウェアエンジニアのフルジョブを遂行でき、実装はもはや希少資源ではない。希少なものは3つに絞られた。人間の時間、人間とモデルの注意力、モデルのコンテキストウィンドウ。かつてはP0・P1・P2が先に処理され、P3は永遠に後回しにされた。今はP3まで4つを並列で回し、最も出来の良いものを選ぶ。エンジニアの役割は実装ではなく、システム思考、設計、委譲だ。

同日午後、TypeScript教育者のMatt Pocockが反論した。

“I don’t think this is right. I think code is not cheap. In fact, bad code is the most expensive it’s ever been.”

それは違うと思う。コードは安くない。むしろ悪いコードは歴史上最も高くついている。

— Matt Pocock

AIは良いコードベースではるかにうまく動作する。生産コストがゼロに収束するほど、品質が生む価値の格差は指数関数的に広がる。ディープモジュール、安定した境界、明確な契約。かつては「あれば嬉しい」程度の美徳だったものが、AI時代には競争変数になった。

2つの主張は矛盾ではなく、同じコインの裏表だ。コードを作るコストはゼロに収束し、コードの品質が持つ価値はむしろ上がる。

同じ文脈の発表が続いた。PiのMario Zechnerは「エージェントは苦痛を感じない」と言った。人間の開発者の不快感が品質のフィードバックループだったのに、エージェントはその苦痛をスキップする。Flask創始者のArmin Ronacherは「摩擦こそが判断だ(Friction is your judgment)」と言った。摩擦なしでは舵を切れないという話だ。Linear CTOのTuomas Artmanは品質水曜日(Quality Wednesday)とゼロバグポリシーを紹介し、「小さなメニュー1つから35件の品質問題が出た」と語った。

エージェントを作っている人たちが「速度を落とせ」と言っている風景が印象的だった。

#2. Harness Engineering — 差別化の新しい軸

Ryan Lopopoloのキーノートで1つの用語が定着した。Harness Engineering。エージェントそのものよりも、エージェントが動作する環境(harness)を設計することが実務で成否を分けるという話だ。

数字も一緒に出た。Lopopoloのチームは7人で5ヶ月間、100万行のコードベースを作った。人間が書いたコード0%、人間がレビューしたコードも0%。1日のトークン消費量10億。1,500件のPRがエージェントによって生成・マージされた。この規模が可能だった理由がharness設計だ。

この流れには系譜がある。

  • Vibe Coding(2025, Karpathy)— 自然言語で説明すればコード生成
  • Agentic Engineering(2026初頭)— エージェントをオーケストレーション
  • Harness Engineering(2026.04, Lopopolo)— エージェントが動作する環境自体を設計

具体的なアドバイスも出た。コードベースをエージェントが読みやすいように作れ。ADR、ペルソナ指向ドキュメント、過去のチケットとコードレビューログ。人間のエンジニアを育ててきたすべての記録を、エージェントも同じ方法でたどる。コンテキストウィンドウが希少だから、同じパターンは同じように書け。そうすればモデルがアクティベートすべき注意力が減る。大規模リファクタリングは今やコストがほぼかからない。6ヶ月かかっていたマイグレーションをエージェント15個が同時に処理できる。

Claude Codeが事例として頻繁に引用された。ターミナルが実行環境、ファイルシステムがコンテキスト、git worktreeが隔離、hooksがセーフガード。モデルではなく、この環境全体がharnessだ。OpenAI CodexとCursorも同じ構造だが、それぞれのharnessが異なるため、ユーザー体験も異なる。

モデル性能が収束するほど、差別化はharnessに移る。ChatGPT Enterpriseのサブスクリプションだけ増やしてharnessを設計していない組織で成果が出ない理由でもある。

#3. Agent-Native Infrastructureはすでに現在だ

Vercel CTOのMalte Ublがオープニングキーノートで数字を1つ出した。Vercelウェブサイト訪問者の60%以上がAIエージェントだということだ。

“There was always all this stuff we wanted to automate, but not all of it was economically viable to do with traditional software. But it is with agents.”

自動化したいものは常にあった。ただ、従来のソフトウェアではすべてに経済性があったわけではない。エージェントなら可能だ。

— Malte Ubl, Vercel CTO

その結果、ソフトウェアを作る側も使う側もエージェントになる時点が来た。

エージェントが入り込むドメインの範囲はウェブインフラにとどまらない。DeepMindのRaia Hadsellが紹介したGenCastは、物理ベースの気象モデル比で97%の精度を見せた。65年間続いてきた数値予報の領域にまでAIが入ってきている。

オープンソースコーディングエージェントOpenClawのPeter Steinbergerは別の現実を見せた。インストール数の急増とともにセキュリティアドバイザリーが1,142件溜まった。1日16.6件のペースだ。そのうちかなりの数がAI生成のスロップレポートだった。エージェントがオープンソースに貢献する速度で、エージェントが作るノイズも押し寄せる。セキュリティとガバナンスを新たに設計すべきだというメッセージだった。

#4. トークン経済の進化 — ルーティングとCode Mode

「どのモデルを使うか」から「複数のモデルをどう組み合わせるか」に問いが変わりつつある。

Anthropic側から2つの組み合わせのデータが公開された。HaikuとOpusを混ぜた組み合わせがBrowseCompスコアを2倍以上引き上げた。低コストのHaikuがウェブをスキャンし、難しい判断ポイントでのみOpusが介入する構造だ。SonnetとOpusの組み合わせはSWE-bench Multilingualで性能とコストを同時に最適化した。

このパターンをCheap Executor + Expensive Advisorと呼ぶ。実行は安く、助言は高く。コスト最適化が性能最適化と同じ方向になるポイントだ。

より急進的なアプローチも出た。Sunil Paiが紹介したCode Modeは、エージェントがツールを呼び出す代わりにコードを生成して直接実行させる。典型的なタスクで1.2Mトークンが1Kに減った。99.9%の削減だ。

“It stopped generating a program and it instead started inhabiting the state machine.”

プログラムを生成するのをやめ、ステートマシンの中に入り込んで動作し始めた。

— Sunil Pai

MCPの立ち位置がまた揺らぐ可能性のあるアプローチだ。

反対側の警告もあった。Pragmatic EngineerのGergely Oroszが指摘したトークンマクシング(token maxing)。MetaやMicrosoftのようなビッグテックが、開発者の生産性を「どれだけ多くのトークンを使ったか」で測り始めたという話だ。多く使ったからといってうまくいくわけではないのに、指標が目標になるとトークンだけが浪費される。古典的なGoodhart’s LawのAI版だ。

#5. ベンチマーク現実化 — ClawBench 6.5%

Peter Gostev(Arena)が発表したClawBenchは、153の実際のオンラインタスクでエージェントを評価するベンチマークだ。

  • 既存サンドボックスベンチマーク精度:70%
  • 実際のウェブサイト精度:6.5%

一桁だ。エージェントがトイ環境でうまくいくことと、実際のウェブでうまくいくことの間の距離が数字で明らかになった。同じ発表で「最高モデル同士が対決しても9%は両方とも不満足」というデータも出た。ベンチマークスコアが上がったからといって、ユーザー満足がついてくるわけではない。

反対側の証拠もある。MirrorCodeベンチマークでClaude Opus 4.6が16,000行のバイオインフォマティクスツールキットをゼロから再実装した。人間の推定作業量は数週間だ。

うまくいく場面では圧倒的で、うまくいかない場面では惨憺たる結果になる。平均で語る時代が終わり、「どこでうまくいくか」の地図を描く時代が始まっている。

#まとめ

5つの発表を振り返ると、1つの方向が見える。差別化がモデルから環境へ移行している。モデル選択はルーティング設計へ、エージェント実装はharness設計へ、ベンチマークの信頼はドメイン別の現実検証へと重心が移動している。

エージェント導入を検討している組織なら、カンファレンスで共有されたProgressive Autonomyフレームが参考になる。Shadow Modeから始めてAdvisory、Controlled Autonomyを経てExpanded Autonomyへ。最初からフル自律でデプロイせず、エビデンスを積みながら段階を上げるというメッセージだった。

そして複数の発表者が共通して語ったことがある。エージェントが速度を出してくれるから、我々は品質に投資する。速度と品質がトレードオフだった時代が終わりつつあるという観察だ。

#主要発表ガイド

注目すべき20の発表を整理した。

#Day 1 (4/9) — キーノート & OpenClaw

発表者所属タイトル / 一言動画
Malte UblVercel CTOThe New Application Layer — Vercelトラフィックの60%がAIエージェントYouTube
Raia HadsellGoogle DeepMind VPFrontier AI — GenCastが物理シミュレーションを97%精度で超越YouTube
Ryan LopopoloOpenAIHarness Engineering — コードは無料、希少なのは人間の時間YouTube
Peter SteinbergerOpenAIOpenClaw Update — セキュリティアドバイザリー1,142件とAIスロップレポートYouTube
Vincent KocComet MLDark Factory — エージェント並列管理で1日3,000コミットYouTube
Maggie AppletonGitHub NextOne Developer, Two Dozen Agents, Zero Alignment
Radek SienkiewiczVelvetSharkエージェントに人生の鍵を渡す — Obsidian 3,000ノートをナレッジベースにYouTube
Gergely OroszPragmatic EngineerToken Maxing — ビッグテックの新しいGoodhart’s LawYouTube
Matt PocockTypeScript教育者悪いコードは歴史上最も高くついたYouTube
Sunil PaiCode Mode — ツール呼び出しの代わりにコード生成、1.2Mトークン → 1KYouTube

#Day 2 (4/10) — MCP、品質、エージェントオーケストレーション

発表者所属タイトル / 一言動画
Omar SansevieroGoogle DeepMindGemma 4 — DeepMindのオープンモデルファミリー
David Soria ParraAnthropic(MCP創始者)The Future of MCP — Progressive DiscoveryとMCPアプリYouTube
Ido SalomonMCP AppsAgentCraft — Putting the Orc in Agent Orchestration
Mario ZechnerPi創始者Building Pi in a World of Slop — エージェントは苦痛を感じないYouTube
Armin RonacherFlask創始者The Friction Is Your Judgment — 摩擦なしでは舵を切れないYouTube
Cursorマークダウンスキルで12,000行コードを200行に置換YouTube
LukeFactoryオーケストレーター・ワーカー・バリデーター — 16日間自律実行ミッションシステムYouTube
Sarah ChangCerebras速いモデルは検証を無料にする — 1,200 tok/s時代YouTube
Tuomas ArtmanLinear CTO品質水曜日とゼロバグポリシー — 小さなメニューから35件のイシューYouTube
Peter GostevArenaClawBench — サンドボックス70% vs 実際のウェブ6.5%YouTube

#参考資料

Share this post