4月8日から10日、ロンドンでAI Engineer Europe 2026が初めて開催された。100を超える発表、23のワークショップ、11のトラック。AIエンジニアリングが今どこに立っているかを最も広く見渡せる場だった。カンファレンスを貫くメッセージは「Models are good enough. You are not ready.」だった。モデルはもう十分だ。準備ができていないのは組織と環境の方だ。主要な発表から見えた5つの変曲点を整理する。
#1. “Code is free” vs “Bad code is the most expensive it’s ever been”
同じ舞台で正反対の主張が出た。
OpenAIのRyan Lopopoloは、9ヶ月間チームメンバーにエディタを禁止し、エージェントだけでソフトウェアを作らせた。
“Code is free. We have an abundance of code to solve the problems that we come across in our day-to-day.”
コードは無料だ。日常で直面する問題を解くコードが溢れている。
— Ryan Lopopolo, OpenAI
GPT 5.2以降、モデルはソフトウェアエンジニアのフルジョブを遂行でき、実装はもはや希少資源ではない。希少なものは3つに絞られた。人間の時間、人間とモデルの注意力、モデルのコンテキストウィンドウ。かつてはP0・P1・P2が先に処理され、P3は永遠に後回しにされた。今はP3まで4つを並列で回し、最も出来の良いものを選ぶ。エンジニアの役割は実装ではなく、システム思考、設計、委譲だ。
同日午後、TypeScript教育者のMatt Pocockが反論した。
“I don’t think this is right. I think code is not cheap. In fact, bad code is the most expensive it’s ever been.”
それは違うと思う。コードは安くない。むしろ悪いコードは歴史上最も高くついている。
— Matt Pocock
AIは良いコードベースではるかにうまく動作する。生産コストがゼロに収束するほど、品質が生む価値の格差は指数関数的に広がる。ディープモジュール、安定した境界、明確な契約。かつては「あれば嬉しい」程度の美徳だったものが、AI時代には競争変数になった。
2つの主張は矛盾ではなく、同じコインの裏表だ。コードを作るコストはゼロに収束し、コードの品質が持つ価値はむしろ上がる。
同じ文脈の発表が続いた。PiのMario Zechnerは「エージェントは苦痛を感じない」と言った。人間の開発者の不快感が品質のフィードバックループだったのに、エージェントはその苦痛をスキップする。Flask創始者のArmin Ronacherは「摩擦こそが判断だ(Friction is your judgment)」と言った。摩擦なしでは舵を切れないという話だ。Linear CTOのTuomas Artmanは品質水曜日(Quality Wednesday)とゼロバグポリシーを紹介し、「小さなメニュー1つから35件の品質問題が出た」と語った。
エージェントを作っている人たちが「速度を落とせ」と言っている風景が印象的だった。
#2. Harness Engineering — 差別化の新しい軸
Ryan Lopopoloのキーノートで1つの用語が定着した。Harness Engineering。エージェントそのものよりも、エージェントが動作する環境(harness)を設計することが実務で成否を分けるという話だ。
数字も一緒に出た。Lopopoloのチームは7人で5ヶ月間、100万行のコードベースを作った。人間が書いたコード0%、人間がレビューしたコードも0%。1日のトークン消費量10億。1,500件のPRがエージェントによって生成・マージされた。この規模が可能だった理由がharness設計だ。
この流れには系譜がある。
- Vibe Coding(2025, Karpathy)— 自然言語で説明すればコード生成
- Agentic Engineering(2026初頭)— エージェントをオーケストレーション
- Harness Engineering(2026.04, Lopopolo)— エージェントが動作する環境自体を設計
具体的なアドバイスも出た。コードベースをエージェントが読みやすいように作れ。ADR、ペルソナ指向ドキュメント、過去のチケットとコードレビューログ。人間のエンジニアを育ててきたすべての記録を、エージェントも同じ方法でたどる。コンテキストウィンドウが希少だから、同じパターンは同じように書け。そうすればモデルがアクティベートすべき注意力が減る。大規模リファクタリングは今やコストがほぼかからない。6ヶ月かかっていたマイグレーションをエージェント15個が同時に処理できる。
Claude Codeが事例として頻繁に引用された。ターミナルが実行環境、ファイルシステムがコンテキスト、git worktreeが隔離、hooksがセーフガード。モデルではなく、この環境全体がharnessだ。OpenAI CodexとCursorも同じ構造だが、それぞれのharnessが異なるため、ユーザー体験も異なる。
モデル性能が収束するほど、差別化はharnessに移る。ChatGPT Enterpriseのサブスクリプションだけ増やしてharnessを設計していない組織で成果が出ない理由でもある。
#3. Agent-Native Infrastructureはすでに現在だ
Vercel CTOのMalte Ublがオープニングキーノートで数字を1つ出した。Vercelウェブサイト訪問者の60%以上がAIエージェントだということだ。
“There was always all this stuff we wanted to automate, but not all of it was economically viable to do with traditional software. But it is with agents.”
自動化したいものは常にあった。ただ、従来のソフトウェアではすべてに経済性があったわけではない。エージェントなら可能だ。
— Malte Ubl, Vercel CTO
その結果、ソフトウェアを作る側も使う側もエージェントになる時点が来た。
エージェントが入り込むドメインの範囲はウェブインフラにとどまらない。DeepMindのRaia Hadsellが紹介したGenCastは、物理ベースの気象モデル比で97%の精度を見せた。65年間続いてきた数値予報の領域にまでAIが入ってきている。
オープンソースコーディングエージェントOpenClawのPeter Steinbergerは別の現実を見せた。インストール数の急増とともにセキュリティアドバイザリーが1,142件溜まった。1日16.6件のペースだ。そのうちかなりの数がAI生成のスロップレポートだった。エージェントがオープンソースに貢献する速度で、エージェントが作るノイズも押し寄せる。セキュリティとガバナンスを新たに設計すべきだというメッセージだった。
#4. トークン経済の進化 — ルーティングとCode Mode
「どのモデルを使うか」から「複数のモデルをどう組み合わせるか」に問いが変わりつつある。
Anthropic側から2つの組み合わせのデータが公開された。HaikuとOpusを混ぜた組み合わせがBrowseCompスコアを2倍以上引き上げた。低コストのHaikuがウェブをスキャンし、難しい判断ポイントでのみOpusが介入する構造だ。SonnetとOpusの組み合わせはSWE-bench Multilingualで性能とコストを同時に最適化した。
このパターンをCheap Executor + Expensive Advisorと呼ぶ。実行は安く、助言は高く。コスト最適化が性能最適化と同じ方向になるポイントだ。
より急進的なアプローチも出た。Sunil Paiが紹介したCode Modeは、エージェントがツールを呼び出す代わりにコードを生成して直接実行させる。典型的なタスクで1.2Mトークンが1Kに減った。99.9%の削減だ。
“It stopped generating a program and it instead started inhabiting the state machine.”
プログラムを生成するのをやめ、ステートマシンの中に入り込んで動作し始めた。
— Sunil Pai
MCPの立ち位置がまた揺らぐ可能性のあるアプローチだ。
反対側の警告もあった。Pragmatic EngineerのGergely Oroszが指摘したトークンマクシング(token maxing)。MetaやMicrosoftのようなビッグテックが、開発者の生産性を「どれだけ多くのトークンを使ったか」で測り始めたという話だ。多く使ったからといってうまくいくわけではないのに、指標が目標になるとトークンだけが浪費される。古典的なGoodhart’s LawのAI版だ。
#5. ベンチマーク現実化 — ClawBench 6.5%
Peter Gostev(Arena)が発表したClawBenchは、153の実際のオンラインタスクでエージェントを評価するベンチマークだ。
- 既存サンドボックスベンチマーク精度:70%
- 実際のウェブサイト精度:6.5%
一桁だ。エージェントがトイ環境でうまくいくことと、実際のウェブでうまくいくことの間の距離が数字で明らかになった。同じ発表で「最高モデル同士が対決しても9%は両方とも不満足」というデータも出た。ベンチマークスコアが上がったからといって、ユーザー満足がついてくるわけではない。
反対側の証拠もある。MirrorCodeベンチマークでClaude Opus 4.6が16,000行のバイオインフォマティクスツールキットをゼロから再実装した。人間の推定作業量は数週間だ。
うまくいく場面では圧倒的で、うまくいかない場面では惨憺たる結果になる。平均で語る時代が終わり、「どこでうまくいくか」の地図を描く時代が始まっている。
#まとめ
5つの発表を振り返ると、1つの方向が見える。差別化がモデルから環境へ移行している。モデル選択はルーティング設計へ、エージェント実装はharness設計へ、ベンチマークの信頼はドメイン別の現実検証へと重心が移動している。
エージェント導入を検討している組織なら、カンファレンスで共有されたProgressive Autonomyフレームが参考になる。Shadow Modeから始めてAdvisory、Controlled Autonomyを経てExpanded Autonomyへ。最初からフル自律でデプロイせず、エビデンスを積みながら段階を上げるというメッセージだった。
そして複数の発表者が共通して語ったことがある。エージェントが速度を出してくれるから、我々は品質に投資する。速度と品質がトレードオフだった時代が終わりつつあるという観察だ。
#主要発表ガイド
注目すべき20の発表を整理した。
#Day 1 (4/9) — キーノート & OpenClaw
#Day 2 (4/10) — MCP、品質、エージェントオーケストレーション
#参考資料
- AI Engineer Europe 2026公式スケジュール — 3日間の全セッション一覧、トラック構成、発表者情報。
- Day 1 (4/9) キーノートフル映像 — 9時間録画。Malte Ubl、Raia Hadsell、Ryan Lopopolo、Peter Steinbergerキーノート含む。
- Day 2 (4/10) フル映像 — 9時間録画。David Soria Parra(MCP)、Mario Zechner(Pi)、Armin Ronacher、Linear CTO、Arenaセッション含む。
- Ryan Lopopolo発表個別映像 — “Harness Engineering: How to Build Software When Humans Steer and Agents Execute”単独クリップ。
- OpenAI — Harness Engineering公式ブログ — Harness Engineeringの概念とOpenAI内部での適用事例の整理。
- Latent.Space — Extreme Harness Engineering(Ryan Lopopolo深層インタビュー) — 1M LOC、0%人間コード実験についての深層インタビュー。カンファレンス発表より深いディテールを扱う。
- dabase.com — AIE 2026 Takeaways from London — 参加者個人の感想。Marioの「速度を落とせ」メッセージとMCPの体感を中心に。
- “I Spent Three Days at AI Engineer Europe” — 投資チーム視点の4つのテーマ整理。Evals、Context Engineering、Progressive Autonomyなど。