4월 8일부터 10일, 런던에서 AI Engineer Europe 2026이 처음 열렸다. 100개 넘는 발표, 23개 워크숍, 11개 트랙. AI 엔지니어링이 지금 어디에 서 있는지를 가장 넓게 볼 수 있는 자리였다. 컨퍼런스를 관통한 메시지는 “Models are good enough. You are not ready.” 였다. 이제 모델은 충분해졌다. 준비가 안 된 건 조직과 환경이다. 주요 발표에서 드러난 다섯 가지 변곡점을 정리한다.
#1. “Code is free” vs “Bad code is the most expensive it’s ever been”
같은 무대에서 정반대 주장이 나왔다.
OpenAI의 Ryan Lopopolo는 9개월간 팀원들에게 에디터를 금지하고 에이전트만으로 소프트웨어를 만들게 했다.
“Code is free. We have an abundance of code to solve the problems that we come across in our day-to-day.”
코드는 무료다. 일상에서 마주하는 문제를 풀 코드가 넘쳐난다.
— Ryan Lopopolo, OpenAI
GPT 5.2 이후 모델은 소프트웨어 엔지니어의 대부분의 작업을 수행할 수 있고, 구현은 더 이상 병목이 아니다. 병목은 세 가지로 좁혀졌다. 사람의 시간, 사람과 모델의 집중력, 그리고 컨텍스트 윈도우. 과거에는 P0·P1·P2가 먼저 처리되고 P3는 영원히 뒤로 밀렸다. 이제는 P3까지 네 개를 병렬로 돌려서 가장 잘 된 것을 고른다. 엔지니어의 역할이 구현에서 시스템을 설계하고 위임하는 쪽으로 옮겨가고 있다.
같은 날 오후 Matt Pocock (TypeScript 교육자)은 아래와 같이 반박했다.
“I don’t think this is right. I think code is not cheap. In fact, bad code is the most expensive it’s ever been.”
그건 틀렸다고 본다. 코드는 싸지 않다. 사실 나쁜 코드는 역사상 가장 비싸졌다.
— Matt Pocock
AI는 좋은 코드베이스에서 훨씬 잘 작동한다. 생산 비용이 0으로 수렴할수록, 품질이 만드는 가치 격차는 기하급수적으로 벌어진다. 딥 모듈, 안정적 경계, 명확한 계약. 과거에는 “있으면 좋은” 덕목이었던 것들이 AI 시대에는 경쟁 변수가 됐다.
두 주장은 모순이 아니라 같은 동전의 양면이다. 코드를 만드는 비용은 0에 수렴하고, 코드의 품질이 갖는 값은 오히려 올라간다.
이 역설을 다른 각도에서 짚은 발표도 있었다. Pi의 Mario Zechner (창시자)는 “에이전트는 고통을 느끼지 않는다”고 했다. 개발자가 느끼는 불편함이 품질의 피드백 루프 역할을 해왔는데, 에이전트는 그 고통 없이 코드를 쏟아낸다. Flask의 Armin Ronacher (창시자)는 “마찰이 곧 판단(Friction is your judgment)“이라는 표현을 썼다. 마찰 없이는 방향을 잡을 수 없다. Linear의 Tuomas Artman (CTO)은 품질 수요일(Quality Wednesday)과 제로 버그 정책을 소개하며 “작은 메뉴 하나에서 35개의 품질 문제가 나왔다”고 했다.
에이전트를 만드는 사람들이 “속도를 줄여라”고 말하는 풍경이 인상적이었다.
#2. Harness Engineering — 차별화의 새 축
Ryan Lopopolo의 키노트에서 용어 하나가 자리를 잡았다. Harness Engineering. 에이전트 자체보다 에이전트가 작동하는 환경(harness)을 설계하는 것이 실무에서 성패를 가른다.
숫자도 함께 나왔다. Lopopolo의 팀은 7명으로 5개월간 100만 줄의 코드베이스를 만들었다. 사람이 작성한 코드 0%, 사람이 리뷰한 코드도 0%. 하루 토큰 소비량 10억. 1,500개의 PR이 에이전트에 의해 생성되고 머지됐다. 이 규모가 가능했던 이유가 harness 설계다.
이 흐름에는 계보가 있다.
- Vibe Coding (2025, Karpathy) — 자연어로 설명하면 코드 생성
- Agentic Engineering (2026 초) — 에이전트를 오케스트레이션
- Harness Engineering (2026.04, Lopopolo) — 에이전트가 작동하는 환경 자체를 설계
구체적인 조언도 나왔다. 코드베이스를 에이전트가 읽기 좋게 만들어라. ADR, 과거 티켓, PR 리뷰 같은 것들이 에이전트에게도 맥락이 된다. 코드 패턴은 일관되게 유지하라. 패턴이 같으면 모델이 파악해야 할 맥락이 줄어든다. 여기에 더해, 대규모 리팩토링 비용이 거의 사라졌다는 점도 강조됐다. 6개월씩 끌리던 마이그레이션도 에이전트 15개를 동시에 돌려 끝낼 수 있다.
Claude Code가 사례로 자주 인용됐다. 터미널이 실행 환경, 파일시스템이 맥락, git worktree가 격리, hooks가 안전장치. 모델이 아니라 이 환경 전체가 harness다. OpenAI Codex와 Cursor도 같은 구조인데, 각자의 harness가 다르기 때문에 사용자 경험도 다르다.
모델 성능이 수렴할수록 차별화는 harness로 넘어간다. ChatGPT Enterprise 구독만 늘리고 harness를 설계하지 않은 조직에서 성과가 나오지 않는 이유이기도 하다.
#3. Agent-Native Infrastructure는 이미 현재다
Vercel의 Malte Ubl (CTO)이 개막 키노트에서 숫자 하나를 꺼냈다. Vercel 웹사이트 방문자의 60% 이상이 AI 에이전트다.
“There was always all this stuff we wanted to automate, but not all of it was economically viable to do with traditional software. But it is with agents.”
자동화하고 싶은 건 늘 있었다. 다만 전통적 소프트웨어로는 전부 경제성이 나오진 않았다. 에이전트로는 가능하다.
— Malte Ubl, Vercel CTO
소프트웨어를 만드는 쪽도 쓰는 쪽도 에이전트가 되는 시대가 열리고 있다.
에이전트가 넘어가는 도메인의 범위는 웹 인프라에 그치지 않는다. DeepMind의 Raia Hadsell (VP)이 소개한 GenCast는 물리 기반 기상 모델 대비 97% 정확도를 보여줬다. 65년간 이어진 수치 예보의 영역까지 AI가 들어오고 있다.
OpenClaw의 Peter Steinberger (OpenAI)는 다른 쪽 현실을 보여줬다. 설치 수 폭증과 함께 보안 어드바이저리가 1,142건 쌓였다. 하루 16.6건꼴이다. 그중 상당수는 AI가 자동 생성한 의미 없는 리포트, 이른바 슬롭(slop)이었다. 에이전트가 기여하는 속도만큼 노이즈도 쏟아진다. 보안과 거버넌스를 새로 설계해야 한다.
#4. 토큰 경제의 진화 — 라우팅과 Code Mode
“어떤 모델을 쓸 것인가”에서 “여러 모델을 어떻게 섞을 것인가”로 질문이 바뀌고 있다.
Anthropic 쪽에서 두 가지 조합의 데이터가 공개됐다. Haiku와 Opus를 섞은 조합이 BrowseComp 점수를 2배 이상 끌어올렸다. 저비용 Haiku가 웹을 훑고 어려운 판단 지점에서만 Opus가 개입하는 구조다. Sonnet과 Opus 조합은 SWE-bench Multilingual에서 성능과 비용을 동시에 최적화했다.
이 패턴을 Cheap Executor + Expensive Advisor라고 부른다. 실행은 싸게, 자문은 비싸게. 비용을 줄이는 것이 곧 성능을 올리는 것이 된다.
더 급진적인 접근도 나왔다. Sunil Pai가 소개한 Code Mode는 에이전트가 도구를 호출하는 대신 코드를 생성해 직접 실행하게 한다. 전형적인 태스크에서 1.2M 토큰이 1K로 줄었다. 99.9% 감축이다.
“It stopped generating a program and it instead started inhabiting the state machine.”
프로그램을 생성하는 걸 멈추고, 상태 기계 안에 들어앉아 동작하기 시작했다.
— Sunil Pai
MCP의 위상이 또 한 번 흔들릴 수 있다.
반대쪽 경고도 있었다. Pragmatic Engineer의 Gergely Orosz가 지적한 토큰 맥싱(token maxing)이다. Meta와 Microsoft 같은 빅테크가 개발자 생산성을 “얼마나 많은 토큰을 썼는가”로 측정하기 시작했다는 이야기다. 더 많이 쓴다고 더 잘하는 건 아닌데, 지표가 목표가 되면 토큰만 낭비된다.
#5. 벤치마크 현실화 — ClawBench 6.5%
Arena의 Peter Gostev가 발표한 ClawBench는 153개의 실제 온라인 작업으로 에이전트를 평가하는 벤치마크다.
- 기존 샌드박스 벤치마크 정확도: 70%
- 실제 웹사이트 정확도: 6.5%
한 자릿수. 에이전트가 토이 환경에서 잘하는 것과 실제 웹에서 잘하는 것 사이의 거리가 숫자로 드러났다. 같은 발표에서 “최고 모델끼리 대결해도 9%는 양쪽 다 불만족”이라는 데이터도 나왔다. 벤치마크 점수가 올라간다고 사용자 만족이 따라가지는 않는다.
반대편 증거도 있다. MirrorCode 벤치마크에서 Claude Opus 4.6이 16,000줄짜리 바이오인포매틱스 툴킷을 처음부터 재구현했다. 사람이 하면 수 주가 걸리는 작업이다.
잘하는 자리에서는 압도적이고, 못하는 자리에서는 참담하다. 평균으로 이야기하던 시대가 끝나고 “어디에서 잘하는가”의 지도를 그리는 시대가 시작되고 있다.
#정리하며
다섯 발표를 돌아보면 하나의 방향이 보인다. 차별화가 모델에서 환경으로 옮겨가고 있다. 모델 선택은 라우팅 설계로, 에이전트 구현은 harness 설계로, 벤치마크 신뢰는 도메인별 현실 검증으로 무게 중심이 이동하고 있다.
에이전트 도입을 검토하는 조직이라면, 컨퍼런스에서 공유된 Progressive Autonomy 프레임이 참고가 된다. 에이전트가 추천만 하는 관찰 단계에서 시작해, 사람이 승인하는 조언 단계, 범위를 한정한 자율 실행을 거쳐 전면 자율로 확장한다. 처음부터 풀 자율로 배포하지 말고 증거를 쌓으며 단계를 올리라는 메시지였다.
그리고 여러 발표자가 공통으로 한 말이 있다. 에이전트가 속도를 내주니 우리는 품질에 투자한다. 속도와 품질이 trade-off였던 시대가 끝나고 있다는 관찰이다.
#주요 발표 가이드
주목할 만한 발표 20개를 정리했다.
#Day 1 (4/9) — 키노트 & OpenClaw
#Day 2 (4/10) — MCP, 품질, 에이전트 오케스트레이션
#참고 자료
- AI Engineer Europe 2026 공식 스케줄 — 3일간 전체 세션 목록, 트랙 구성, 발표자 정보.
- Day 1 (4/9) 키노트 풀 영상 — 9시간 녹화. Malte Ubl, Raia Hadsell, Ryan Lopopolo, Peter Steinberger 키노트 포함.
- Day 2 (4/10) 풀 영상 — 9시간 녹화. David Soria Parra(MCP), Mario Zechner(Pi), Armin Ronacher, Linear CTO, Arena 세션 포함.
- Ryan Lopopolo 발표 개별 영상 — “Harness Engineering: How to Build Software When Humans Steer and Agents Execute” 단독 클립.
- OpenAI — Harness Engineering 공식 블로그 — Harness Engineering 개념과 OpenAI 내부 적용 사례 정리.
- Latent.Space — Extreme Harness Engineering (Ryan Lopopolo 심층 인터뷰) — 1M LOC, 0% 인간 코드 실험에 대한 심층 인터뷰. 컨퍼런스 발표보다 깊은 디테일을 다룬다.
- dabase.com — AIE 2026 Takeaways from London — 참석자 개인 후기. Mario의 “속도를 줄여라” 메시지와 MCP 체감 중심.
- “I Spent Three Days at AI Engineer Europe” — 투자팀 관점 4가지 테마 정리. Evals, Context Engineering, Progressive Autonomy 등.