Pinned Post
GPT-5.5 vs Claude Opus 4.7, 에이전트로 쓸 때 진짜 차이는 점수가 아니었습니다
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
도입
한 모델이 똑같은 코딩 작업을 하면서 다른 모델보다 72% 적은 출력 토큰으로 끝냅니다. 그게 GPT-5.5와 Claude Opus 4.7 사이의 가장 솔직한 격차예요. 벤치마크 점수만 보면 GPT-5.5가 한 걸음 앞서 있는 것 같은데, 정작 Cursor와 Claude Code를 매일 쓰는 개발자들은 여전히 큰 리팩토링은 Opus 4.7에 맡깁니다. 무슨 일이 벌어지고 있는 걸까요. 두 모델을 에이전트로 쓸 때 무엇이 다른지부터 풀어 볼게요.
핵심 내용 요약
두 모델은 일주일 사이에 연달아 나왔습니다. Claude Opus 4.7은 4월 16일, GPT-5.5는 4월 23일에 공개됐어요. 둘 다 1M 토큰 컨텍스트를 지원합니다. 입력 가격은 100만 토큰당 5달러로 같지만, 출력은 GPT-5.5가 30달러, Opus 4.7이 25달러로 후자가 조금 쌉니다.
강점은 칼같이 갈려 있어요. GPT-5.5는 GPT-4.5 이후 처음으로 밑바닥부터 재훈련한 베이스 모델이고, '계획해서 실행하는' 작업에서 앞섭니다. 반대로 Opus 4.7은 코드베이스를 통째로 읽고 이해해서 PR을 마무리하는 쪽에서 우위예요. 그리고 위에서 말한 토큰 효율 — 출력 길이의 차이가 에이전트 비용을 결정하는 실제 변수가 됩니다.
쉽게 풀어 설명
벤치마크를 두 그룹으로 묶어 보면 차이가 분명해집니다. 첫 번째는 '계획·실행' 영역이에요. 터미널을 열고 명령어를 짜서 일을 처리하는 Terminal-Bench 2.0에서 GPT-5.5가 82.7%, Opus 4.7이 69.4%를 받았습니다. 13점 차이는 작지 않죠. 컴퓨터를 직접 조작하는 OSWorld-Verified에서도 GPT-5.5가 78.7%로 앞섭니다.
두 번째는 '코드베이스 이해' 영역입니다. 실제 깃허브 이슈를 해결하는 SWE-bench Pro에서 Opus 4.7은 64.3%, GPT-5.5는 58.6%를 받았어요. SWE-bench Verified는 87.6%까지 올라갔고, MCP 도구를 여러 개 묶어 쓰는 MCP-Atlas에서도 77.3%로 좋은 점수를 받았습니다.
한 발짝 떨어져 보면 이런 그림이 됩니다. GPT-5.5는 '시킨 일을 빠르게 끝내는 실행자', Opus 4.7은 '큰 그림을 보고 신중하게 짜는 설계자'에 가까워요. 같은 코딩 모델인데 성격이 꽤 다른 거죠.
영향 분석
에이전트로 쓸 때 이 차이가 어떻게 나타날까요. 핵심은 두 가지입니다.
첫째, 토큰 비용이 누적됩니다. Opus 4.7은 코드를 짤 때 "이렇게 할 거예요"라고 말로 먼저 풀고, 코드를 쓰고, 다시 "이런 걸 했어요"라고 정리하는 경향이 있어요. 한두 번 쓰는 채팅에서는 친절하지만, 에이전트가 수십 번 도구를 호출하는 루프에서는 그 모든 설명이 청구서에 찍힙니다. 같은 작업에서 출력 토큰이 GPT-5.5의 약 3.6배라는 보고가 있는 정도니, 단순히 출력 단가가 25달러로 더 싸다고 해서 실제 비용도 싸지는 게 아닙니다.
둘째, 작업 성격에 따라 답이 갈립니다. 새 기능을 빠르게 만들거나, 셸에서 여러 도구를 묶어 돌리거나, 컴퓨터 자동화처럼 '시작 → 끝'이 분명한 일은 GPT-5.5가 더 잘 어울립니다. 반대로 거대한 코드베이스를 읽어서 큰 PR을 한 번에 정리하거나, MCP 서버를 여러 개 붙인 복잡한 도구 환경에서 신중한 추론이 필요한 일은 Opus 4.7이 여전히 강해요. Anthropic이 Claude Code 기본값을 새로 추가된 'xhigh' 효율 설정으로 바꿨다는 점도 같은 맥락입니다.
한 줄 정리
두 모델은 더 이상 '누가 더 똑똑한가'의 경쟁이 아닙니다. GPT-5.5는 빠르고 토큰 효율이 좋은 실행자, Opus 4.7은 큰 코드베이스를 이해하는 설계자로 역할이 갈렸어요. 에이전트를 만들 때는 작업의 성격을 먼저 보고, 어쩌면 두 모델을 단계별로 섞어 쓰는 것이 가장 영리한 답일 겁니다.
댓글
댓글 쓰기