Namsang LABS
Radar · #ai #ai-engineering #harness-engineering #conference #agent

AI Engineer Europe 2026 — 코드는 무료가 되었지만, 품질은 오히려 비싸졌다

· Sangkyoon Nam

4월 8일부터 10일, 런던에서 AI Engineer Europe 2026이 처음 열렸다. 100개 넘는 발표, 23개 워크숍, 11개 트랙. AI 엔지니어링이 지금 어디에 서 있는지를 가장 넓게 볼 수 있는 자리였다. 컨퍼런스를 관통한 메시지는 “Models are good enough. You are not ready.” 였다. 이제 모델은 충분해졌다. 준비가 안 된 건 조직과 환경이다. 주요 발표에서 드러난 다섯 가지 변곡점을 정리한다.

#1. “Code is free” vs “Bad code is the most expensive it’s ever been”

같은 무대에서 정반대 주장이 나왔다.

OpenAI의 Ryan Lopopolo는 9개월간 팀원들에게 에디터를 금지하고 에이전트만으로 소프트웨어를 만들게 했다.

“Code is free. We have an abundance of code to solve the problems that we come across in our day-to-day.”

코드는 무료다. 일상에서 마주하는 문제를 풀 코드가 넘쳐난다.

— Ryan Lopopolo, OpenAI

GPT 5.2 이후 모델은 소프트웨어 엔지니어의 대부분의 작업을 수행할 수 있고, 구현은 더 이상 병목이 아니다. 병목은 세 가지로 좁혀졌다. 사람의 시간, 사람과 모델의 집중력, 그리고 컨텍스트 윈도우. 과거에는 P0·P1·P2가 먼저 처리되고 P3는 영원히 뒤로 밀렸다. 이제는 P3까지 네 개를 병렬로 돌려서 가장 잘 된 것을 고른다. 엔지니어의 역할이 구현에서 시스템을 설계하고 위임하는 쪽으로 옮겨가고 있다.

같은 날 오후 Matt Pocock (TypeScript 교육자)은 아래와 같이 반박했다.

“I don’t think this is right. I think code is not cheap. In fact, bad code is the most expensive it’s ever been.”

그건 틀렸다고 본다. 코드는 싸지 않다. 사실 나쁜 코드는 역사상 가장 비싸졌다.

— Matt Pocock

AI는 좋은 코드베이스에서 훨씬 잘 작동한다. 생산 비용이 0으로 수렴할수록, 품질이 만드는 가치 격차는 기하급수적으로 벌어진다. 딥 모듈, 안정적 경계, 명확한 계약. 과거에는 “있으면 좋은” 덕목이었던 것들이 AI 시대에는 경쟁 변수가 됐다.

두 주장은 모순이 아니라 같은 동전의 양면이다. 코드를 만드는 비용은 0에 수렴하고, 코드의 품질이 갖는 값은 오히려 올라간다.

이 역설을 다른 각도에서 짚은 발표도 있었다. Pi의 Mario Zechner (창시자)는 “에이전트는 고통을 느끼지 않는다”고 했다. 개발자가 느끼는 불편함이 품질의 피드백 루프 역할을 해왔는데, 에이전트는 그 고통 없이 코드를 쏟아낸다. Flask의 Armin Ronacher (창시자)는 “마찰이 곧 판단(Friction is your judgment)“이라는 표현을 썼다. 마찰 없이는 방향을 잡을 수 없다. Linear의 Tuomas Artman (CTO)은 품질 수요일(Quality Wednesday)과 제로 버그 정책을 소개하며 “작은 메뉴 하나에서 35개의 품질 문제가 나왔다”고 했다.

에이전트를 만드는 사람들이 “속도를 줄여라”고 말하는 풍경이 인상적이었다.

#2. Harness Engineering — 차별화의 새 축

Ryan Lopopolo의 키노트에서 용어 하나가 자리를 잡았다. Harness Engineering. 에이전트 자체보다 에이전트가 작동하는 환경(harness)을 설계하는 것이 실무에서 성패를 가른다.

숫자도 함께 나왔다. Lopopolo의 팀은 7명으로 5개월간 100만 줄의 코드베이스를 만들었다. 사람이 작성한 코드 0%, 사람이 리뷰한 코드도 0%. 하루 토큰 소비량 10억. 1,500개의 PR이 에이전트에 의해 생성되고 머지됐다. 이 규모가 가능했던 이유가 harness 설계다.

이 흐름에는 계보가 있다.

  • Vibe Coding (2025, Karpathy) — 자연어로 설명하면 코드 생성
  • Agentic Engineering (2026 초) — 에이전트를 오케스트레이션
  • Harness Engineering (2026.04, Lopopolo) — 에이전트가 작동하는 환경 자체를 설계

구체적인 조언도 나왔다. 코드베이스를 에이전트가 읽기 좋게 만들어라. ADR, 과거 티켓, PR 리뷰 같은 것들이 에이전트에게도 맥락이 된다. 코드 패턴은 일관되게 유지하라. 패턴이 같으면 모델이 파악해야 할 맥락이 줄어든다. 여기에 더해, 대규모 리팩토링 비용이 거의 사라졌다는 점도 강조됐다. 6개월씩 끌리던 마이그레이션도 에이전트 15개를 동시에 돌려 끝낼 수 있다.

Claude Code가 사례로 자주 인용됐다. 터미널이 실행 환경, 파일시스템이 맥락, git worktree가 격리, hooks가 안전장치. 모델이 아니라 이 환경 전체가 harness다. OpenAI Codex와 Cursor도 같은 구조인데, 각자의 harness가 다르기 때문에 사용자 경험도 다르다.

모델 성능이 수렴할수록 차별화는 harness로 넘어간다. ChatGPT Enterprise 구독만 늘리고 harness를 설계하지 않은 조직에서 성과가 나오지 않는 이유이기도 하다.

#3. Agent-Native Infrastructure는 이미 현재다

Vercel의 Malte Ubl (CTO)이 개막 키노트에서 숫자 하나를 꺼냈다. Vercel 웹사이트 방문자의 60% 이상이 AI 에이전트다.

“There was always all this stuff we wanted to automate, but not all of it was economically viable to do with traditional software. But it is with agents.”

자동화하고 싶은 건 늘 있었다. 다만 전통적 소프트웨어로는 전부 경제성이 나오진 않았다. 에이전트로는 가능하다.

— Malte Ubl, Vercel CTO

소프트웨어를 만드는 쪽도 쓰는 쪽도 에이전트가 되는 시대가 열리고 있다.

에이전트가 넘어가는 도메인의 범위는 웹 인프라에 그치지 않는다. DeepMind의 Raia Hadsell (VP)이 소개한 GenCast는 물리 기반 기상 모델 대비 97% 정확도를 보여줬다. 65년간 이어진 수치 예보의 영역까지 AI가 들어오고 있다.

OpenClaw의 Peter Steinberger (OpenAI)는 다른 쪽 현실을 보여줬다. 설치 수 폭증과 함께 보안 어드바이저리가 1,142건 쌓였다. 하루 16.6건꼴이다. 그중 상당수는 AI가 자동 생성한 의미 없는 리포트, 이른바 슬롭(slop)이었다. 에이전트가 기여하는 속도만큼 노이즈도 쏟아진다. 보안과 거버넌스를 새로 설계해야 한다.

#4. 토큰 경제의 진화 — 라우팅과 Code Mode

“어떤 모델을 쓸 것인가”에서 “여러 모델을 어떻게 섞을 것인가”로 질문이 바뀌고 있다.

Anthropic 쪽에서 두 가지 조합의 데이터가 공개됐다. Haiku와 Opus를 섞은 조합이 BrowseComp 점수를 2배 이상 끌어올렸다. 저비용 Haiku가 웹을 훑고 어려운 판단 지점에서만 Opus가 개입하는 구조다. Sonnet과 Opus 조합은 SWE-bench Multilingual에서 성능과 비용을 동시에 최적화했다.

이 패턴을 Cheap Executor + Expensive Advisor라고 부른다. 실행은 싸게, 자문은 비싸게. 비용을 줄이는 것이 곧 성능을 올리는 것이 된다.

더 급진적인 접근도 나왔다. Sunil Pai가 소개한 Code Mode는 에이전트가 도구를 호출하는 대신 코드를 생성해 직접 실행하게 한다. 전형적인 태스크에서 1.2M 토큰이 1K로 줄었다. 99.9% 감축이다.

“It stopped generating a program and it instead started inhabiting the state machine.”

프로그램을 생성하는 걸 멈추고, 상태 기계 안에 들어앉아 동작하기 시작했다.

— Sunil Pai

MCP의 위상이 또 한 번 흔들릴 수 있다.

반대쪽 경고도 있었다. Pragmatic Engineer의 Gergely Orosz가 지적한 토큰 맥싱(token maxing)이다. Meta와 Microsoft 같은 빅테크가 개발자 생산성을 “얼마나 많은 토큰을 썼는가”로 측정하기 시작했다는 이야기다. 더 많이 쓴다고 더 잘하는 건 아닌데, 지표가 목표가 되면 토큰만 낭비된다.

#5. 벤치마크 현실화 — ClawBench 6.5%

Arena의 Peter Gostev가 발표한 ClawBench는 153개의 실제 온라인 작업으로 에이전트를 평가하는 벤치마크다.

  • 기존 샌드박스 벤치마크 정확도: 70%
  • 실제 웹사이트 정확도: 6.5%

한 자릿수. 에이전트가 토이 환경에서 잘하는 것과 실제 웹에서 잘하는 것 사이의 거리가 숫자로 드러났다. 같은 발표에서 “최고 모델끼리 대결해도 9%는 양쪽 다 불만족”이라는 데이터도 나왔다. 벤치마크 점수가 올라간다고 사용자 만족이 따라가지는 않는다.

반대편 증거도 있다. MirrorCode 벤치마크에서 Claude Opus 4.6이 16,000줄짜리 바이오인포매틱스 툴킷을 처음부터 재구현했다. 사람이 하면 수 주가 걸리는 작업이다.

잘하는 자리에서는 압도적이고, 못하는 자리에서는 참담하다. 평균으로 이야기하던 시대가 끝나고 “어디에서 잘하는가”의 지도를 그리는 시대가 시작되고 있다.

#정리하며

다섯 발표를 돌아보면 하나의 방향이 보인다. 차별화가 모델에서 환경으로 옮겨가고 있다. 모델 선택은 라우팅 설계로, 에이전트 구현은 harness 설계로, 벤치마크 신뢰는 도메인별 현실 검증으로 무게 중심이 이동하고 있다.

에이전트 도입을 검토하는 조직이라면, 컨퍼런스에서 공유된 Progressive Autonomy 프레임이 참고가 된다. 에이전트가 추천만 하는 관찰 단계에서 시작해, 사람이 승인하는 조언 단계, 범위를 한정한 자율 실행을 거쳐 전면 자율로 확장한다. 처음부터 풀 자율로 배포하지 말고 증거를 쌓으며 단계를 올리라는 메시지였다.

그리고 여러 발표자가 공통으로 한 말이 있다. 에이전트가 속도를 내주니 우리는 품질에 투자한다. 속도와 품질이 trade-off였던 시대가 끝나고 있다는 관찰이다.

#주요 발표 가이드

주목할 만한 발표 20개를 정리했다.

#Day 1 (4/9) — 키노트 & OpenClaw

발표자소속제목 / 한 줄영상
Malte UblVercel CTOThe New Application Layer — Vercel 트래픽 60%가 AI 에이전트YouTube
Raia HadsellGoogle DeepMind VPFrontier AI — GenCast가 물리 시뮬레이션을 97% 정확도로 추월YouTube
Ryan LopopoloOpenAIHarness Engineering — 코드는 무료, 희소한 건 인간의 시간YouTube
Peter SteinbergerOpenAIOpenClaw Update — 보안 어드바이저리 1,142건과 AI 슬롭 리포트YouTube
Vincent KocComet MLDark Factory — 에이전트 병렬 관리로 하루 3,000 커밋YouTube
Maggie AppletonGitHub NextOne Developer, Two Dozen Agents, Zero Alignment
Radek SienkiewiczVelvetShark에이전트에게 삶의 열쇠를 넘기다 — Obsidian 3,000 노트를 지식 베이스로YouTube
Gergely OroszPragmatic EngineerToken Maxing — 빅테크의 새로운 Goodhart’s LawYouTube
Matt PocockTypeScript 교육자나쁜 코드는 역사상 가장 비싸졌다YouTube
Sunil PaiCode Mode — 도구 호출 대신 코드 생성, 1.2M 토큰 → 1KYouTube

#Day 2 (4/10) — MCP, 품질, 에이전트 오케스트레이션

발표자소속제목 / 한 줄영상
Omar SansevieroGoogle DeepMindGemma 4 — DeepMind의 오픈 모델 패밀리
David Soria ParraAnthropic (MCP 창시자)The Future of MCP — Progressive Discovery와 MCP 앱YouTube
Ido SalomonMCP AppsAgentCraft — Putting the Orc in Agent Orchestration
Mario ZechnerPi 창시자Building Pi in a World of Slop — 에이전트는 고통을 느끼지 않는다YouTube
Armin RonacherFlask 창시자The Friction Is Your Judgment — 마찰 없이는 조향할 수 없다YouTube
Cursor마크다운 스킬로 12,000줄 코드를 200줄로 대체YouTube
LukeFactory오케스트레이터-워커-밸리데이터 — 16일간 자율 실행 미션 시스템YouTube
Sarah ChangCerebras빠른 모델은 검증을 무료로 만든다 — 1,200 tok/s 시대YouTube
Tuomas ArtmanLinear CTO품질 수요일과 제로 버그 정책 — 작은 메뉴에서 35개 이슈YouTube
Peter GostevArenaClawBench — 샌드박스 70% vs 실제 웹 6.5%YouTube

#참고 자료

Share this post